Voeg de DataFrames samen
In de komende twee hoofdstukken ga je een model bouwen dat voorspelt of een vlucht vertraagd zal zijn op basis van de vluchtgegevens waar we mee hebben gewerkt. Dit model bevat ook informatie over het vliegtuig dat de route vloog, dus de eerste stap is het samenvoegen van de twee tabellen: flights en planes!
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Hernoem eerst de kolom
yearvanplanesnaarplane_yearom dubbele kolomnamen te voorkomen. - Maak een nieuwe DataFrame genaamd
model_datadoor de tabelflightste joinen metplanesmet de kolomtailnumals sleutel.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")