Snelle pipeline
Voordat je complexere data gaat parsen, wil je manager graag een eenvoudig pipeline-voorbeeld zien met de basistappen. In dit voorbeeld wil je een databestand inlezen, een paar rijen filteren, er een ID-kolom aan toevoegen en het vervolgens wegschrijven als JSON-data.
De spark-context is gedefinieerd en de bibliotheek pyspark.sql.functions is, zoals gebruikelijk, als F geïmporteerd.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Importeer het bestand
2015-departures.csv.gzin een DataFrame. Let op: de header is al aanwezig. - Filter het DataFrame zodat het alleen vluchten bevat met een duur van meer dan 0 minuten. Gebruik de index van de kolom, niet de kolomnaam (denk eraan
.printSchema()te gebruiken om de kolomnamen/-volgorde te zien). - Voeg een ID-kolom toe.
- Schrijf het bestand weg als een JSON-document met de naam
output.json.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the data to a DataFrame
departures_df = spark.____(____, header=____)
# Remove any duration of 0
departures_df = departures_df.____(____)
# Add an ID column
departures_df = departures_df.____('id', ____)
# Write the file out to JSON format
____.write.____(____, mode='overwrite')