Schnelle Pipeline

Bevor du komplexere Daten analysierst, möchte dein Manager ein einfaches Pipeline-Beispiel mit den grundlegenden Schritten sehen. In diesem Beispiel willst du eine Datendatei einlesen, ein paar Zeilen filtern, eine ID-Spalte hinzufügen und sie dann als JSON-Daten ausgeben.

Der Kontext spark ist definiert, und die Bibliothek pyspark.sql.functions wird wie üblich als F aliasiert.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Importiere die Datei 2015-departures.csv.gz in einen DataFrame. Beachte, dass die Überschrift bereits definiert ist.
Filtere den DataFrame so, dass er nur Flüge mit einer Dauer von mehr als 0 Minuten enthält. Verwende den Index der Spalte, nicht den Spaltennamen (denke daran, .printSchema() zu verwenden, um die Spaltennamen / Reihenfolge zu sehen).
Füge eine ID-Spalte hinzu.
Schreibe die Datei als JSON-Dokument mit dem Namen output.json aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the data to a DataFrame
departures_df = spark.____(____, header=____)

# Remove any duration of 0
departures_df = departures_df.____(____)

# Add an ID column
departures_df = departures_df.____('id', ____)

# Write the file out to JSON format
____.write.____(____, mode='overwrite')

Code bearbeiten und ausführen