Manipulation des colonnes
La Federal Aviation Administration (FAA) considère qu'un vol est « retardé » lorsqu'il arrive 15 minutes ou plus après l'heure prévue.
La prochaine étape de la préparation des données de vol comprend deux parties :
- convertissez les unités de distance, en remplaçant la colonne «
mile
» par une colonne «km
» ; et - créer une colonne booléenne indiquant si un vol a été retardé ou non.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez une fonction qui vous permettra d'arrondir un nombre à un nombre spécifique de décimales.
- Dérivez une nouvelle colonne «
km
» à partir de la colonne «mile
», en arrondissant à zéro décimale. Un mile équivaut à 1,60934 km. - Supprimez la colonne «
mile
». label
Créez une colonne « Délai » avec une valeur de 1 indiquant que le délai était de 15 minutes ou plus et 0 dans le cas contraire. Réfléchissez bien à la condition logique.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)