IniziaInizia gratis

Join

Un'operazione sui dati molto comune è il join. I join sono un argomento a sé stante, quindi in questo corso ci limiteremo ai join semplici. Se vuoi approfondire, dai un'occhiata qui.

Un join combina due tabelle diverse lungo una colonna che condividono. Questa colonna si chiama chiave. Esempi di chiavi qui includono le colonne tailnum e carrier della tabella flights.

Per esempio, supponi di voler conoscere più informazioni sull'aereo che ha effettuato un volo oltre al solo numero di coda. Queste informazioni non sono nella tabella flights perché lo stesso aereo compie molti voli nell'arco di due anni, quindi includerle in ogni riga porterebbe a molte duplicazioni. Per evitarlo, avresti una seconda tabella con una sola riga per ogni aereo e colonne che elencano tutte le informazioni sull'aereo, incluso il numero di coda. Potresti chiamare questa tabella planes.

Quando fai il join della tabella flights con questa tabella di informazioni sugli aerei, stai aggiungendo tutte le colonne della tabella planes alla tabella flights. Per riempire queste colonne, guarderai il numero di coda nella tabella flights, troverai quello corrispondente in planes e userai quella riga per compilare tutte le nuove colonne.

Ora avrai una tabella molto più grande di prima, ma ogni riga conterrà tutte le informazioni sull'aereo che ha effettuato quel volo!

Quale delle seguenti affermazioni non è vera?

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio