Fai il join dei DataFrame
Nei prossimi due capitoli lavorerai alla creazione di un modello che predice se un volo sarà in ritardo o meno, basandosi sui dati dei voli con cui abbiamo lavorato finora. Questo modello includerà anche informazioni sull’aereo che ha effettuato la tratta, quindi il primo passo è fare il join delle due tabelle: flights e planes!
Questo esercizio fa parte del corso
Fondamenti di PySpark
Istruzioni dell'esercizio
- Per prima cosa, rinomina la colonna
yeardiplanesinplane_yearper evitare nomi di colonna duplicati. - Crea un nuovo DataFrame chiamato
model_datafacendo il join della tabellaflightsconplanesusando la colonnatailnumcome chiave.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")