IniziaInizia gratis

Fai il join dei DataFrame

Nei prossimi due capitoli lavorerai alla creazione di un modello che predice se un volo sarà in ritardo o meno, basandosi sui dati dei voli con cui abbiamo lavorato finora. Questo modello includerà anche informazioni sull’aereo che ha effettuato la tratta, quindi il primo passo è fare il join delle due tabelle: flights e planes!

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Per prima cosa, rinomina la colonna year di planes in plane_year per evitare nomi di colonna duplicati.
  • Crea un nuovo DataFrame chiamato model_data facendo il join della tabella flights con planes usando la colonna tailnum come chiave.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Modifica ed esegui il codice