Vom RDD zum DataFrame

Ähnlich wie RDDs sind DataFrames unveränderliche und verteilte Datenstrukturen in Spark. Doch obwohl RDDs grundlegende Datenstrukturen in Spark sind, lässt sich mit Daten in DataFrames einfacher arbeiten als in RDDs. Du solltest also wissen, wie man einen RDD in einen DataFrame umwandelt.

In dieser Übung erstellst du zunächst einen RDD mithilfe der sample_list-Variable, die bereits verfügbar ist. Dieser RDD umfasst eine Liste von Tupeln – ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) –, wobei jedes Tupel den Namen einer Person und ihr Alter enthält. Als Nächstes erstellst du einen DataFrame mit dem RDD und dem Schema (d. h. mit der Liste mit „Name“ und „Alter“) und bestätigst schließlich, dass die Ausgabe ein PySpark-DataFrame ist.

Zur Erinnerung: Der SparkContext sc und die SparkSession spark sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

Erstelle einen RDD anhand von sample_list.
Erstelle einen PySpark-DataFrame mit dem oben genannten RDD und Schema.
Bestätige, dass die Ausgabe ein PySpark-DataFrame ist.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create an RDD from the list
rdd = sc.____(sample_list)

# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])

# Check the type of names_df
print("The type of names_df is", ____(names_df))

Code bearbeiten und ausführen