Erste SchritteKostenlos loslegen

CSV-Daten in einen DataFrame laden

In der vorherigen Übung hast du gesehen, wie man einen DataFrame aus einem RDD erstellt. Im Allgemeinen ist das Laden von Daten aus einer CSV-Datei die gängigste Methode zur Erstellung von DataFrames. In dieser Übung erstellst du einen PySpark-DataFrame aus der Datei people.csv, die dir bereits als file_path zur Verfügung steht, und bestätigst, dass das erstellte Objekt ein PySpark-DataFrame ist.

Zur Erinnerung: Die SparkSession spark und die Variable file_path (Pfad zur Datei people.csv) sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen DataFrame aus der Variable file_path, die den Pfad zu der Datei people.csv enthält.
  • Bestätige, dass die Ausgabe ein PySpark-DataFrame ist.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))
Bearbeiten und Ausführen von Code