Rejoindre les DataFrame
Dans les deux prochains chapitres, vous travaillerez à la construction d'un modèle qui prédit si un vol sera retardé ou non, sur la base des données relatives aux vols avec lesquelles nous avons travaillé. Ce modèle comprendra également des informations sur l'avion qui a emprunté cette route. La première étape consiste donc à joindre les deux tableaux : flights
et planes
!
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Tout d'abord, renommez la colonne
year
deplanes
enplane_year
afin d'éviter les noms de colonnes en double. - Créez un nouveau DataFrame appelé
model_data
en joignant le tableauflights
àplanes
en utilisant la colonnetailnum
comme clé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")