Suppression de colonnes et de lignes
Vous avez précédemment chargé les données de vol d'une compagnie aérienne à partir d'un fichier CSV. Vous allez développer un modèle qui permettra de prédire si un vol donné sera retardé ou non.
Dans cet exercice, vous devez réduire ces données en :
- supprimer une colonne non informative et
- Supprimer les lignes qui ne contiennent pas d'informations indiquant si un vol a été retardé ou non.
Les données sont disponibles à l'adresse suivante : flights
.
Remarque : Il pourrait vous être utile de revoir les diapositives des leçons dans le panneau Slides situé à côté du shell IPython.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Supprimez la colonne «
flight
». - Veuillez déterminer le nombre d'enregistrements comportant des valeurs manquantes dans la colonne «
delay
». - Supprimez les enregistrements comportant des valeurs manquantes dans la colonne «
delay
». - Supprimez les enregistrements comportant des valeurs manquantes dans n'importe quelle colonne et obtenez le nombre de lignes restantes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Remove the 'flight' column
flights_drop_column = flights.____(____)
# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()
# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)
# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())