IniziaInizia gratis

Unire i voli con i loro aeroporti di destinazione

Sei stato assunto come data engineer per una compagnia di viaggi globale. Il tuo primo compito è aiutare l’azienda a migliorare le operazioni analizzando i dati sui voli. Nel tuo workspace hai due insiemi di dati: uno con i dettagli dei voli (flights) e un altro con le informazioni sugli aeroporti di destinazione (airports), entrambi già disponibili nel tuo workspace.

Il tuo obiettivo? Combinare questi insiemi di dati per creare un dataset efficace che colleghi ogni volo al suo aeroporto di destinazione.

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Esamina il DataFrame airports. Individua quale colonna chiave ti permetterà di unire airports alla tabella flights.
  • Unisci flights con il DataFrame airports sulla colonna "dest". Salva il risultato come flights_with_airports.
  • Esamina di nuovo flights_with_airports. Nota le nuove informazioni che sono state aggiunte.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Examine the data
airports.____()

# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
flights_with_airports.____
Modifica ed esegui il codice