LoslegenKostenlos loslegen

RDDs aus parallelisierten Sammlungen

Resilient Distributed Dataset (RDD) ist die Bezeichnung für die grundlegende Abstraktion in Spark. Es handelt sich dabei um eine unveränderliche verteilte Sammlung von Objekten. Da RDD ein wesentlicher und grundlegender Datentyp in Spark ist, solltest du wissen, wie man ihn erstellt. In dieser Übung erstellst du deinen ersten RDD in PySpark aus einer Sammlung von Wörtern.

Zur Erinnerung: Es gibt bereits einen SparkContext namens sc in deinem Arbeitsbereich.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen RDD namens RDD aus einer Python-Liste von Wörtern.
  • Überprüfe, ob das erstellte Objekt den korrekten Typ (RDD) hat.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))
Code bearbeiten und ausführen