Adhésion
Une autre opération de données très courante est la jointure. Les jointures sont un sujet à part entière, c'est pourquoi nous nous contenterons dans ce cours d'étudier les jointures simples. Si vous souhaitez en savoir plus sur les jonctions, vous pouvez consulter la page suivante.
Une jointure combine deux tableaux différents le long d'une colonne qu'ils partagent. Cette colonne est appelée clé. Les colonnes tailnum
et carrier
du tableau flights
sont des exemples de clés.
Supposons, par exemple, que vous souhaitiez obtenir plus d'informations sur l'avion qui a effectué un vol que son simple numéro de queue. Cette information ne figure pas dans le tableau flights
parce qu'un même avion effectue de nombreux vols différents au cours de deux années, de sorte que l'inclusion de cette information dans chaque ligne entraînerait de nombreuses répétitions. Pour éviter cela, vous disposez d'un second tableau qui ne comporte qu'une seule ligne pour chaque avion et dont les colonnes contiennent toutes les informations relatives à l'avion, y compris son numéro de queue. Vous pourriez appeler ce tableau planes
Lorsque vous reliez le tableau flights
à ce tableau d'informations sur les avions, vous ajoutez toutes les colonnes du tableau planes
au tableau flights
. Pour remplir ces colonnes d'informations, vous devez rechercher le numéro de queue dans le tableau flights
et trouver le numéro correspondant dans le tableau planes
, puis utiliser cette ligne pour remplir toutes les nouvelles colonnes.
Vous avez maintenant un tableau beaucoup plus grand qu'auparavant, mais chaque ligne contient désormais toutes les informations relatives à l'avion qui a effectué ce vol !
Lequel des éléments suivants n' est pas vrai ?
Cet exercice fait partie du cours
Introduction à PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
