Supprimer des lignes
Lorsque vous savez qu’une colonne sera essentielle à votre analyse et que seule une faible proportion de lignes a une valeur manquante dans cette colonne, il est souvent judicieux de retirer ces lignes du jeu de données.
Dans ce cours, la colonne driver_gender sera déterminante pour de nombreuses analyses. Comme seule une petite fraction des lignes n’a pas de valeur pour driver_gender, nous allons supprimer ces lignes du jeu de données.
Cet exercice fait partie du cours
Analyzing Police Activity with pandas
Instructions
- Comptez le nombre de valeurs manquantes dans chaque colonne.
- Supprimez toutes les lignes dont
driver_genderest manquant en passant le nom de la colonne au paramètresubsetde.dropna(). - Comptez à nouveau le nombre de valeurs manquantes dans chaque colonne pour vérifier qu’aucune des lignes restantes n’est sans
driver_gender. - Examinez l’attribut
.shapedu DataFrame pour voir combien de lignes et de colonnes restent.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Count the number of missing values in each column
print(ri.isnull().____)
# Drop all rows that are missing 'driver_gender'
ri.____(subset=[____], inplace=True)
# Count the number of missing values in each column (again)
print(ri.____.____)
# Examine the shape of the DataFrame
print(____)