Associer les vols à leurs aéroports de destination
Vous venez d’être recruté·e comme data engineer pour une entreprise de voyages internationale. Votre première mission consiste à aider l’entreprise à améliorer ses opérations en analysant des données de vols. Vous disposez de deux jeux de données dans votre espace de travail : l’un contient des informations sur les vols (flights) et l’autre sur les aéroports de destination (airports). Ils sont déjà disponibles dans votre espace de travail.
Votre objectif ? Combiner ces jeux de données pour créer un ensemble puissant qui relie chaque vol à son aéroport de destination.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Examinez le DataFrame
airports. Identifiez la colonne clé qui permettra de joindreairportsà la tableflights. - Faites une jointure de
flightsavec le DataFrameairportssur la colonne"dest". Enregistrez le résultat sousflights_with_airports. - Réexaminez
flights_with_airports. Notez les nouvelles informations ajoutées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Examine the data
airports.____()
# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
flights_with_airports.____