CommencerCommencer gratuitement

Allez-vous supprimer ?

Avant de supprimer totalement les valeurs manquantes, vous devez considérer les facteurs qui justifient une suppression. Le plus simple à évaluer est la proportion de données manquantes. Des raisons plus complexes, qui influencent la présence de valeurs manquantes, peuvent nécessiter des connaissances métier. Dans cet exercice, vous identifierez la raison de la non-disponibilité des données, puis effectuerez la suppression appropriée.

Vous commencerez par utiliser msno.matrix() et msno.heatmap() pour visualiser la répartition des valeurs manquantes et la corrélation entre les variables concernées. Vous déterminerez ensuite le schéma de cette « missingness ». Enfin, vous supprimerez selon le type de valeurs manquantes identifié.

Le DataFrame diabetes a été chargé pour vous.

Remarque : nous avons utilisé une fonction propriétaire display() au lieu de plt.show() pour vous faciliter la visualisation du résultat.

Cet exercice fait partie du cours

Gérer les données manquantes en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Visualize the missingness in the data
___.___(___)

# Display nullity matrix
display("/usr/local/share/datasets/matrix_diabetes.png")
Modifier et exécuter le code