Investisseurs manquants
La gestion des données manquantes est l'une des tâches les plus courantes en science des données. Il existe différents types de données manquantes, ainsi que différentes solutions pour les traiter.
Vous venez de recevoir une nouvelle version du DataFrame banking
contenant des données sur les montants détenus et investis pour les clients nouveaux et existants. Cependant, certaines lignes présentent des valeurs d'inv_amount
s manquantes.
Vous savez pertinemment que la plupart des clients âgés de moins de 25 ans ne possèdent pas encore de compte d'investissement, et vous soupçonnez que cela pourrait expliquer les données manquantes. Les paquets pandas
, missingno
et matplotlib.pyplot
ont été importés respectivement sous les noms pd
, msno
et plt
. Le DataFrame banking
se trouve dans votre environnement.
Cet exercice fait partie du cours
Nettoyage des données en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print number of missing values in banking
print(____)
# Visualize missingness matrix
____
____