Adhésion II
Dans PySpark, les jointures sont réalisées à l'aide de la méthode DataFrame .join(). Cette méthode prend trois arguments. Le premier est le second DataFrame que vous souhaitez joindre au premier. Le deuxième argument, on, est le nom de la (des) colonne(s) clé(s) sous forme de chaîne de caractères. Les noms des colonnes clés doivent être identiques dans chaque tableau. Le troisième argument, how, spécifie le type de jointure à effectuer. Dans ce cours, nous utiliserons toujours la valeur how="leftouter".
L'ensemble de données flights et un nouvel ensemble de données appelé airports se trouvent déjà dans votre espace de travail.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
Examinez le DataFrame
airportsen appelant.show(). Notez la colonne clé qui vous permettra de relierairportsau tableauflights.Renommez la colonne
faadansairportsendesten réassignant le résultat deairports.withColumnRenamed("faa", "dest")àairports.Joignez le
flightsau DataFrameairportssur la colonnedesten appelant la méthode.join()surflights. Enregistrez le résultat sousflights_with_airports.Le premier argument doit être l'autre DataFrame,
airports.L'argument
ondoit être la colonne clé.L'argument
howdevrait être"leftouter".
Appelez
.show()surflights_with_airportspour examiner à nouveau les données. Notez les nouvelles informations qui ont été ajoutées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)