Aan de slagGa gratis aan de slag

Vluchten koppelen aan hun bestemmingsluchthavens

Je bent aangenomen als data-engineer bij een wereldwijd reisbedrijf. Je eerste taak is om het bedrijf te helpen de operaties te verbeteren door vluchtgegevens te analyseren. Je hebt twee gegevenssets in je werkomgeving: één met details over vluchten (flights) en één met informatie over bestemmingsluchthavens (airports), beide zijn al beschikbaar in je werkomgeving.

Je doel? Combineer deze gegevenssets tot een krachtige gegevensset die elke vlucht koppelt aan zijn bestemmingsluchthaven.

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Bekijk de airports DataFrame. Noteer welke sleutelkolom je kunt gebruiken om airports te joinen met de tabel flights.
  • Join de flights met de airports DataFrame op de kolom "dest". Sla het resultaat op als flights_with_airports.
  • Bekijk flights_with_airports opnieuw. Let op de nieuwe informatie die is toegevoegd.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Examine the data
airports.____()

# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
flights_with_airports.____
Code bewerken en uitvoeren