CSV-Daten in einen DataFrame laden
In der vorherigen Übung hast du gesehen, wie man einen DataFrame aus einem RDD erstellt. Im Allgemeinen ist das Laden von Daten aus einer CSV-Datei die gängigste Methode zur Erstellung von DataFrames. In dieser Übung erstellst du einen PySpark-DataFrame aus der Datei people.csv
, die dir bereits als file_path
zur Verfügung steht, und bestätigst, dass das erstellte Objekt ein PySpark-DataFrame ist.
Zur Erinnerung: Die SparkSession spark
und die Variable file_path
(Pfad zur Datei people.csv
) sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle einen DataFrame aus der Variable
file_path
, die den Pfad zu der Dateipeople.csv
enthält. - Bestätige, dass die Ausgabe ein PySpark-DataFrame ist.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)
# Check the type of people_df
print("The type of people_df is", ____(people_df))