LoslegenKostenlos loslegen

Schnelle Pipeline

Bevor du komplexere Daten parsest, möchte deine Managerin/dein Manager ein einfaches Pipeline-Beispiel mit den Grundschritten sehen. In diesem Beispiel sollst du eine Datendatei einlesen, einige Zeilen filtern, eine ID-Spalte hinzufügen und das Ergebnis als JSON-Daten schreiben.

Der spark-Kontext ist definiert, und die Bibliothek pyspark.sql.functions ist wie üblich als F aliasiert.

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Datei 2015-departures.csv.gz in ein DataFrame. Beachte: Die Kopfzeile ist bereits definiert.
  • Filtere das DataFrame so, dass nur Flüge mit einer Dauer von über 0 Minuten enthalten sind. Verwende den Index der Spalte, nicht den Spaltennamen (denk daran, .printSchema() zu nutzen, um Spaltennamen/-reihenfolge zu sehen).
  • Füge eine ID-Spalte hinzu.
  • Schreibe die Datei als JSON-Dokument mit dem Namen output.json heraus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the data to a DataFrame
departures_df = spark.____(____, header=____)

# Remove any duration of 0
departures_df = departures_df.____(____)

# Add an ID column
departures_df = departures_df.____('id', ____)

# Write the file out to JSON format
____.write.____(____, mode='overwrite')
Code bearbeiten und ausführen