CSV-Daten in einen DataFrame laden

In der vorherigen Übung hast du gesehen, wie man einen DataFrame aus einem RDD erstellt. Im Allgemeinen ist das Laden von Daten aus einer CSV-Datei die gängigste Methode zur Erstellung von DataFrames. In dieser Übung erstellst du einen PySpark-DataFrame aus der Datei people.csv, die dir bereits als file_path zur Verfügung steht, und bestätigst, dass das erstellte Objekt ein PySpark-DataFrame ist.

Zur Erinnerung: Die SparkSession spark und die Variable file_path (Pfad zur Datei people.csv) sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Grundlagen von Big Data mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle einen DataFrame aus der Variable file_path, die den Pfad zu der Datei people.csv enthält.
Bestätige, dass die Ausgabe ein PySpark-DataFrame ist.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))

Code bearbeiten und ausführen