IniziaInizia gratis

Join II

In PySpark, le join si eseguono con il metodo .join() dei DataFrame. Questo metodo accetta tre argomenti. Il primo è il secondo DataFrame che vuoi unire al primo. Il secondo argomento, on, è il nome della o delle colonne chiave come stringa. I nomi della o delle colonne chiave devono essere identici in ciascuna tabella. Il terzo argomento, how, specifica il tipo di join da eseguire. In questo corso useremo sempre il valore how="leftouter".

Il dataset flights e un nuovo dataset chiamato airports sono già nel tuo workspace.

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Esamina il DataFrame airports chiamando .show(). Prendi nota di quale colonna chiave permette di unire airports alla tabella flights.
  • Rinomina la colonna faa in airports in dest riassegnando il risultato di airports.withColumnRenamed("faa", "dest") a airports.
  • Unisci flights con il DataFrame airports sulla colonna dest chiamando il metodo .join() su flights. Salva il risultato come flights_with_airports.
    • Il primo argomento deve essere l’altro DataFrame, airports.
    • L’argomento on deve essere la colonna chiave.
    • L’argomento how deve essere "leftouter".
  • Chiama .show() su flights_with_airports per esaminare di nuovo i dati. Nota le nuove informazioni che sono state aggiunte.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)
Modifica ed esegui il codice