CommencerCommencer gratuitement

Suppression de colonnes et de lignes

Vous avez précédemment chargé les données de vol d'une compagnie aérienne à partir d'un fichier CSV. Vous allez développer un modèle qui permettra de prédire si un vol donné sera retardé ou non.

Dans cet exercice, vous devez réduire ces données de :

  1. la suppression d'une colonne non informative et
  2. supprimer les lignes qui ne contiennent pas d'informations sur le retard ou non d'un vol.

Les données sont disponibles à l'adresse suivante : flights.

Note: : Vous pourriez trouver utile de réviser les diapositives des leçons dans le panneau Diapositives à côté du Shell IPython.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Retirez la colonne flight.
  • Découvrez combien d'enregistrements ont des valeurs manquantes dans la colonne delay.
  • Supprimez les enregistrements dont les valeurs sont manquantes dans la colonne delay.
  • Supprimez les enregistrements dont les valeurs sont manquantes dans une colonne et obtenez le nombre de lignes restantes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Modifier et exécuter le code