CommencerCommencer gratuitement

Fabrication d'un booléen

Considérez que vous posez une question par oui ou par non : le vol est-il en retard ? Cependant, vos données contiennent le retard à l'arrivée en minutes pour chaque vol. Vous devez donc créer une colonne booléenne qui indique si le vol était en retard ou non !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Utilisez la méthode .withColumn() pour créer la colonne is_late. Cette colonne est égale à model_data.arr_delay > 0.
  • Convertissez cette colonne en une colonne d'entiers afin de pouvoir l'utiliser dans votre modèle et nommez-la label (il s'agit du nom par défaut de la variable réponse dans les routines d'apprentissage automatique de Spark).
  • Filtrez les valeurs manquantes (cela a été fait pour vous).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create is_late
model_data = model_data.withColumn("is_late", ____)

# Convert to an integer
model_data = model_data.withColumn("label", ____)

# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")
Modifier et exécuter le code