RDDs aus parallelisierten Sammlungen

Resilient Distributed Dataset (RDD) ist die Bezeichnung für die grundlegende Abstraktion in Spark. Es handelt sich dabei um eine unveränderliche verteilte Sammlung von Objekten. Da RDD ein wesentlicher und grundlegender Datentyp in Spark ist, solltest du wissen, wie man ihn erstellt. In dieser Übung erstellst du deinen ersten RDD in PySpark aus einer Sammlung von Wörtern.

Zur Erinnerung: Es gibt bereits einen SparkContext namens sc in deinem Arbeitsbereich.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

Erstelle einen RDD namens RDD aus einer Python-Liste von Wörtern.
Überprüfe, ob das erstellte Objekt den korrekten Typ (RDD) hat.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))

Code bearbeiten und ausführen