CommencerCommencer gratuitement

Manipulation des colonnes

La Federal Aviation Administration (FAA) considère qu'un vol est « retardé » lorsqu'il arrive 15 minutes ou plus après l'heure prévue.

La prochaine étape de la préparation des données de vol comprend deux parties :

  1. convertissez les unités de distance, en remplaçant la colonne « mile » par une colonne « km» ; et
  2. créer une colonne booléenne indiquant si un vol a été retardé ou non.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez une fonction qui vous permettra d'arrondir un nombre à un nombre spécifique de décimales.
  • Dérivez une nouvelle colonne « km » à partir de la colonne « mile », en arrondissant à zéro décimale. Un mile équivaut à 1,60934 km.
  • Supprimez la colonne « mile ».
  • label Créez une colonne « Délai » avec une valeur de 1 indiquant que le délai était de 15 minutes ou plus et 0 dans le cas contraire. Réfléchissez bien à la condition logique.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Modifier et exécuter le code