Aan de slagGa gratis aan de slag

Voeg de DataFrames samen

In de komende twee hoofdstukken ga je een model bouwen dat voorspelt of een vlucht vertraagd zal zijn op basis van de vluchtgegevens waar we mee hebben gewerkt. Dit model bevat ook informatie over het vliegtuig dat de route vloog, dus de eerste stap is het samenvoegen van de twee tabellen: flights en planes!

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Oefeninstructies

  • Hernoem eerst de kolom year van planes naar plane_year om dubbele kolomnamen te voorkomen.
  • Maak een nieuwe DataFrame genaamd model_data door de tabel flights te joinen met planes met de kolom tailnum als sleutel.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Code bewerken en uitvoeren