CommencerCommencer gratuitement

Adhésion II

Dans PySpark, les jointures sont réalisées à l'aide de la méthode DataFrame .join(). Cette méthode prend trois arguments. Le premier est le second DataFrame que vous souhaitez joindre au premier. Le deuxième argument, on, est le nom de la (des) colonne(s) clé(s) sous forme de chaîne de caractères. Les noms des colonnes clés doivent être identiques dans chaque tableau. Le troisième argument, how, spécifie le type de jointure à effectuer. Dans ce cours, nous utiliserons toujours la valeur how="leftouter".

L'ensemble de données flights et un nouvel ensemble de données appelé airports se trouvent déjà dans votre espace de travail.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Examinez le DataFrame airports en appelant .show(). Notez la colonne clé qui vous permettra de relier airports au tableau flights.

  • Renommez la colonne faa dans airports en dest en réassignant le résultat de airports.withColumnRenamed("faa", "dest") à airports.

  • Joignez le flights au DataFrame airports sur la colonne dest en appelant la méthode .join() sur flights. Enregistrez le résultat sous flights_with_airports.

    • Le premier argument doit être l'autre DataFrame, airports.

    • L'argument on doit être la colonne clé.

    • L'argument how devrait être "leftouter".

  • Appelez .show() sur flights_with_airports pour examiner à nouveau les données. Notez les nouvelles informations qui ont été ajoutées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)
Modifier et exécuter le code