RDDs aus parallelisierten Sammlungen
Resilient Distributed Dataset (RDD) ist die Bezeichnung für die grundlegende Abstraktion in Spark. Es handelt sich dabei um eine unveränderliche verteilte Sammlung von Objekten. Da RDD ein wesentlicher und grundlegender Datentyp in Spark ist, solltest du wissen, wie man ihn erstellt. In dieser Übung erstellst du deinen ersten RDD in PySpark aus einer Sammlung von Wörtern.
Zur Erinnerung: Es gibt bereits einen SparkContext namens sc
in deinem Arbeitsbereich.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle einen RDD namens
RDD
aus einer Python-Liste von Wörtern. - Überprüfe, ob das erstellte Objekt den korrekten Typ (RDD) hat.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])
# Print out the type of the created object
print("The type of RDD is", ____(RDD))