Join II
In PySpark, le join si eseguono con il metodo .join() dei DataFrame. Questo metodo accetta tre argomenti. Il primo è il secondo DataFrame che vuoi unire al primo. Il secondo argomento, on, è il nome della o delle colonne chiave come stringa. I nomi della o delle colonne chiave devono essere identici in ciascuna tabella. Il terzo argomento, how, specifica il tipo di join da eseguire. In questo corso useremo sempre il valore how="leftouter".
Il dataset flights e un nuovo dataset chiamato airports sono già nel tuo workspace.
Questo esercizio fa parte del corso
Fondamenti di PySpark
Istruzioni dell'esercizio
- Esamina il DataFrame
airportschiamando.show(). Prendi nota di quale colonna chiave permette di unireairportsalla tabellaflights. - Rinomina la colonna
faainairportsindestriassegnando il risultato diairports.withColumnRenamed("faa", "dest")aairports. - Unisci
flightscon il DataFrameairportssulla colonnadestchiamando il metodo.join()suflights. Salva il risultato comeflights_with_airports.- Il primo argomento deve essere l’altro DataFrame,
airports. - L’argomento
ondeve essere la colonna chiave. - L’argomento
howdeve essere"leftouter".
- Il primo argomento deve essere l’altro DataFrame,
- Chiama
.show()suflights_with_airportsper esaminare di nuovo i dati. Nota le nuove informazioni che sono state aggiunte.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)