CommencerCommencer gratuitement

Supprimer des lignes

Lorsque vous savez qu’une colonne sera essentielle à votre analyse et que seule une faible proportion de lignes a une valeur manquante dans cette colonne, il est souvent judicieux de retirer ces lignes du jeu de données.

Dans ce cours, la colonne driver_gender sera déterminante pour de nombreuses analyses. Comme seule une petite fraction des lignes n’a pas de valeur pour driver_gender, nous allons supprimer ces lignes du jeu de données.

Cet exercice fait partie du cours

Analyzing Police Activity with pandas

Afficher le cours

Instructions

  • Comptez le nombre de valeurs manquantes dans chaque colonne.
  • Supprimez toutes les lignes dont driver_gender est manquant en passant le nom de la colonne au paramètre subset de .dropna().
  • Comptez à nouveau le nombre de valeurs manquantes dans chaque colonne pour vérifier qu’aucune des lignes restantes n’est sans driver_gender.
  • Examinez l’attribut .shape du DataFrame pour voir combien de lignes et de colonnes restent.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Count the number of missing values in each column
print(ri.isnull().____)

# Drop all rows that are missing 'driver_gender'
ri.____(subset=[____], inplace=True)

# Count the number of missing values in each column (again)
print(ri.____.____)

# Examine the shape of the DataFrame
print(____)
Modifier et exécuter le code