Unire i voli con i loro aeroporti di destinazione
Sei stato assunto come data engineer per una compagnia di viaggi globale. Il tuo primo compito è aiutare l’azienda a migliorare le operazioni analizzando i dati sui voli. Nel tuo workspace hai due insiemi di dati: uno con i dettagli dei voli (flights) e un altro con le informazioni sugli aeroporti di destinazione (airports), entrambi già disponibili nel tuo workspace.
Il tuo obiettivo? Combinare questi insiemi di dati per creare un dataset efficace che colleghi ogni volo al suo aeroporto di destinazione.
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Esamina il DataFrame
airports. Individua quale colonna chiave ti permetterà di unireairportsalla tabellaflights. - Unisci
flightscon il DataFrameairportssulla colonna"dest". Salva il risultato comeflights_with_airports. - Esamina di nuovo
flights_with_airports. Nota le nuove informazioni che sono state aggiunte.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Examine the data
airports.____()
# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
flights_with_airports.____