Vluchten koppelen aan hun bestemmingsluchthavens
Je bent aangenomen als data-engineer bij een wereldwijd reisbedrijf. Je eerste taak is om het bedrijf te helpen de operaties te verbeteren door vluchtgegevens te analyseren. Je hebt twee gegevenssets in je werkomgeving: één met details over vluchten (flights) en één met informatie over bestemmingsluchthavens (airports), beide zijn al beschikbaar in je werkomgeving.
Je doel? Combineer deze gegevenssets tot een krachtige gegevensset die elke vlucht koppelt aan zijn bestemmingsluchthaven.
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Bekijk de
airportsDataFrame. Noteer welke sleutelkolom je kunt gebruiken omairportste joinen met de tabelflights. - Join de
flightsmet deairportsDataFrame op de kolom"dest". Sla het resultaat op alsflights_with_airports. - Bekijk
flights_with_airportsopnieuw. Let op de nieuwe informatie die is toegevoegd.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Examine the data
airports.____()
# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
flights_with_airports.____