CommencerCommencer gratuitement

Associer les vols à leurs aéroports de destination

Vous venez d’être recruté·e comme data engineer pour une entreprise de voyages internationale. Votre première mission consiste à aider l’entreprise à améliorer ses opérations en analysant des données de vols. Vous disposez de deux jeux de données dans votre espace de travail : l’un contient des informations sur les vols (flights) et l’autre sur les aéroports de destination (airports). Ils sont déjà disponibles dans votre espace de travail.

Votre objectif ? Combiner ces jeux de données pour créer un ensemble puissant qui relie chaque vol à son aéroport de destination.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Examinez le DataFrame airports. Identifiez la colonne clé qui permettra de joindre airports à la table flights.
  • Faites une jointure de flights avec le DataFrame airports sur la colonne "dest". Enregistrez le résultat sous flights_with_airports.
  • Réexaminez flights_with_airports. Notez les nouvelles informations ajoutées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Examine the data
airports.____()

# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
flights_with_airports.____
Modifier et exécuter le code