Schnelle Pipeline
Bevor du komplexere Daten analysierst, möchte dein Manager ein einfaches Pipeline-Beispiel mit den grundlegenden Schritten sehen. In diesem Beispiel willst du eine Datendatei einlesen, ein paar Zeilen filtern, eine ID-Spalte hinzufügen und sie dann als JSON-Daten ausgeben.
Der Kontext spark
ist definiert, und die Bibliothek pyspark.sql.functions
wird wie üblich als F
aliasiert.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Importiere die Datei
2015-departures.csv.gz
in einen DataFrame. Beachte, dass die Überschrift bereits definiert ist. - Filtere den DataFrame so, dass er nur Flüge mit einer Dauer von mehr als 0 Minuten enthält. Verwende den Index der Spalte, nicht den Spaltennamen (denke daran,
.printSchema()
zu verwenden, um die Spaltennamen / Reihenfolge zu sehen). - Füge eine ID-Spalte hinzu.
- Schreibe die Datei als JSON-Dokument mit dem Namen
output.json
aus.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the data to a DataFrame
departures_df = spark.____(____, header=____)
# Remove any duration of 0
departures_df = departures_df.____(____)
# Add an ID column
departures_df = departures_df.____('id', ____)
# Write the file out to JSON format
____.write.____(____, mode='overwrite')