CommencerCommencer gratuitement

Manipulation des colonnes

La Federal Aviation Administration (FAA) considère qu'un vol est "retardé" lorsqu'il arrive 15 minutes ou plus après l'heure prévue.

L'étape suivante de la préparation des données de vol se déroule en deux temps :

  1. convertir les unités de distance en remplaçant la colonne mile par une colonne km; et
  2. créer une colonne booléenne indiquant si un vol a été retardé ou non.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez une fonction qui vous permettra d'arrondir un nombre à un nombre spécifique de décimales.
  • Dérivez une nouvelle colonne km de la colonne mile, en arrondissant à zéro décimale. Un mile équivaut à 1,60934 km.
  • Retirez la colonne mile.
  • Créez une colonne label avec une valeur de 1 indiquant que le retard était de 15 minutes ou plus et 0 dans le cas contraire. Réfléchissez bien à la condition logique.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Modifier et exécuter le code