Fabrication d'un booléen
Considérez que vous posez une question par oui ou par non : le vol est-il en retard ? Cependant, vos données contiennent le retard à l'arrivée en minutes pour chaque vol. Vous devez donc créer une colonne booléenne qui indique si le vol était en retard ou non !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Utilisez la méthode
.withColumn()
pour créer la colonneis_late
. Cette colonne est égale àmodel_data.arr_delay > 0
. - Convertissez cette colonne en une colonne d'entiers afin de pouvoir l'utiliser dans votre modèle et nommez-la
label
(il s'agit du nom par défaut de la variable réponse dans les routines d'apprentissage automatique de Spark). - Filtrez les valeurs manquantes (cela a été fait pour vous).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create is_late
model_data = model_data.withColumn("is_late", ____)
# Convert to an integer
model_data = model_data.withColumn("label", ____)
# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")