Investisseurs manquants
La gestion des données manquantes est l'une des tâches les plus courantes en science des données. Il existe différents types de données manquantes, ainsi que différentes solutions pour les traiter.
Vous venez de recevoir une nouvelle version du DataFrame banking contenant des données sur les montants détenus et investis pour les clients nouveaux et existants. Cependant, certaines lignes présentent des valeurs inv_amount manquantes.
Vous savez pertinemment que la plupart des clients âgés de moins de 25 ans ne possèdent pas encore de compte d'investissement, et vous pensez que cela pourrait expliquer les données manquantes. Les packages pandas, missingno et matplotlib.pyplot ont été importés respectivement sous les noms pd, msno et plt. Le DataFrame banking se trouve dans votre environnement.
Cet exercice fait partie du cours
Nettoyage des données en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print number of missing values in banking
print(____)
# Visualize missingness matrix
____
____