CommencerCommencer gratuitement

Suppression de colonnes et de lignes

Vous avez précédemment chargé les données de vol d'une compagnie aérienne à partir d'un fichier CSV. Vous allez développer un modèle qui permettra de prédire si un vol donné sera retardé ou non.

Dans cet exercice, vous devez réduire ces données en :

  1. supprimer une colonne non informative et
  2. Supprimer les lignes qui ne contiennent pas d'informations indiquant si un vol a été retardé ou non.

Les données sont disponibles à l'adresse suivante : flights.

Remarque : Il pourrait vous être utile de revoir les diapositives des leçons dans le panneau Slides situé à côté du shell IPython.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Supprimez la colonne « flight ».
  • Veuillez déterminer le nombre d'enregistrements comportant des valeurs manquantes dans la colonne « delay ».
  • Supprimez les enregistrements comportant des valeurs manquantes dans la colonne « delay ».
  • Supprimez les enregistrements comportant des valeurs manquantes dans n'importe quelle colonne et obtenez le nombre de lignes restantes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Modifier et exécuter le code