Manipulation des colonnes
La Federal Aviation Administration (FAA) considère qu'un vol est "retardé" lorsqu'il arrive 15 minutes ou plus après l'heure prévue.
L'étape suivante de la préparation des données de vol se déroule en deux temps :
- convertir les unités de distance en remplaçant la colonne
milepar une colonnekm; et - créer une colonne booléenne indiquant si un vol a été retardé ou non.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez une fonction qui vous permettra d'arrondir un nombre à un nombre spécifique de décimales.
- Dérivez une nouvelle colonne
kmde la colonnemile, en arrondissant à zéro décimale. Un mile équivaut à 1,60934 km. - Retirez la colonne
mile. - Créez une colonne
labelavec une valeur de 1 indiquant que le retard était de 15 minutes ou plus et 0 dans le cas contraire. Réfléchissez bien à la condition logique.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)