Vom RDD zum DataFrame
Ähnlich wie RDDs sind DataFrames unveränderliche und verteilte Datenstrukturen in Spark. Doch obwohl RDDs grundlegende Datenstrukturen in Spark sind, lässt sich mit Daten in DataFrames einfacher arbeiten als in RDDs. Du solltest also wissen, wie man einen RDD in einen DataFrame umwandelt.
In dieser Übung erstellst du zunächst einen RDD mithilfe der sample_list
-Variable, die bereits verfügbar ist. Dieser RDD umfasst eine Liste von Tupeln – ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26)
–, wobei jedes Tupel den Namen einer Person und ihr Alter enthält. Als Nächstes erstellst du einen DataFrame mit dem RDD und dem Schema (d. h. mit der Liste mit „Name“ und „Alter“) und bestätigst schließlich, dass die Ausgabe ein PySpark-DataFrame ist.
Zur Erinnerung: Der SparkContext sc
und die SparkSession spark
sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle einen RDD anhand von
sample_list
. - Erstelle einen PySpark-DataFrame mit dem oben genannten RDD und Schema.
- Bestätige, dass die Ausgabe ein PySpark-DataFrame ist.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Create an RDD from the list
rdd = sc.____(sample_list)
# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])
# Check the type of names_df
print("The type of names_df is", ____(names_df))