Adhésion II
Dans PySpark, les jointures sont réalisées à l'aide de la méthode DataFrame .join()
. Cette méthode prend trois arguments. Le premier est le second DataFrame que vous souhaitez joindre au premier. Le deuxième argument, on
, est le nom de la (des) colonne(s) clé(s) sous forme de chaîne de caractères. Les noms des colonnes clés doivent être identiques dans chaque tableau. Le troisième argument, how
, spécifie le type de jointure à effectuer. Dans ce cours, nous utiliserons toujours la valeur how="leftouter"
.
L'ensemble de données flights
et un nouvel ensemble de données appelé airports
se trouvent déjà dans votre espace de travail.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
Examinez le DataFrame
airports
en appelant.show()
. Notez la colonne clé qui vous permettra de relierairports
au tableauflights
.Renommez la colonne
faa
dansairports
endest
en réassignant le résultat deairports.withColumnRenamed("faa", "dest")
àairports
.Joignez le
flights
au DataFrameairports
sur la colonnedest
en appelant la méthode.join()
surflights
. Enregistrez le résultat sousflights_with_airports
.Le premier argument doit être l'autre DataFrame,
airports
.L'argument
on
doit être la colonne clé.L'argument
how
devrait être"leftouter"
.
Appelez
.show()
surflights_with_airports
pour examiner à nouveau les données. Notez les nouvelles informations qui ont été ajoutées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)