Schnelle Pipeline
Bevor du komplexere Daten parsest, möchte deine Managerin/dein Manager ein einfaches Pipeline-Beispiel mit den Grundschritten sehen. In diesem Beispiel sollst du eine Datendatei einlesen, einige Zeilen filtern, eine ID-Spalte hinzufügen und das Ergebnis als JSON-Daten schreiben.
Der spark-Kontext ist definiert, und die Bibliothek pyspark.sql.functions ist wie üblich als F aliasiert.
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Importiere die Datei
2015-departures.csv.gzin ein DataFrame. Beachte: Die Kopfzeile ist bereits definiert. - Filtere das DataFrame so, dass nur Flüge mit einer Dauer von über 0 Minuten enthalten sind. Verwende den Index der Spalte, nicht den Spaltennamen (denk daran,
.printSchema()zu nutzen, um Spaltennamen/-reihenfolge zu sehen). - Füge eine ID-Spalte hinzu.
- Schreibe die Datei als JSON-Dokument mit dem Namen
output.jsonheraus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the data to a DataFrame
departures_df = spark.____(____, header=____)
# Remove any duration of 0
departures_df = departures_df.____(____)
# Add an ID column
departures_df = departures_df.____('id', ____)
# Write the file out to JSON format
____.write.____(____, mode='overwrite')