CommencerCommencer gratuitement

Rejoindre les DataFrame

Dans les deux prochains chapitres, vous travaillerez à la construction d'un modèle qui prédit si un vol sera retardé ou non, sur la base des données relatives aux vols avec lesquelles nous avons travaillé. Ce modèle comprendra également des informations sur l'avion qui a emprunté cette route. La première étape consiste donc à joindre les deux tableaux : flights et planes!

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Tout d'abord, renommez la colonne year de planes en plane_year afin d'éviter les noms de colonnes en double.
  • Créez un nouveau DataFrame appelé model_data en joignant le tableau flights à planes en utilisant la colonne tailnum comme clé.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Modifier et exécuter le code