Aan de slagGa gratis aan de slag

Snelle pipeline

Voordat je complexere data gaat parsen, wil je manager graag een eenvoudig pipeline-voorbeeld zien met de basistappen. In dit voorbeeld wil je een databestand inlezen, een paar rijen filteren, er een ID-kolom aan toevoegen en het vervolgens wegschrijven als JSON-data.

De spark-context is gedefinieerd en de bibliotheek pyspark.sql.functions is, zoals gebruikelijk, als F geïmporteerd.

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Cursus bekijken

Oefeninstructies

  • Importeer het bestand 2015-departures.csv.gz in een DataFrame. Let op: de header is al aanwezig.
  • Filter het DataFrame zodat het alleen vluchten bevat met een duur van meer dan 0 minuten. Gebruik de index van de kolom, niet de kolomnaam (denk eraan .printSchema() te gebruiken om de kolomnamen/-volgorde te zien).
  • Voeg een ID-kolom toe.
  • Schrijf het bestand weg als een JSON-document met de naam output.json.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the data to a DataFrame
departures_df = spark.____(____, header=____)

# Remove any duration of 0
departures_df = departures_df.____(____)

# Add an ID column
departures_df = departures_df.____('id', ____)

# Write the file out to JSON format
____.write.____(____, mode='overwrite')
Code bewerken en uitvoeren