Quelle est la qualité de l'intégrité de nos données ?
De nouvelles données ont été intégrées au DataFrame banking
, qui contient des informations détaillées sur la répartition des investissements de la colonne inv_amount
entre quatre fonds différents, A, B, C et D.
De plus, l'âge et les dates d'anniversaire des clients sont désormais enregistrés respectivement dans les colonnes « age
» et « birth_date
».
Vous souhaitez comprendre comment les clients de différentes tranches d'âge investissent. Cependant, il est important de vous assurer au préalable que les données que vous analysez sont correctes. Pour ce faire, vous devrez vérifier les valeurs des champs « inv_amount
» et « age
» par rapport aux montants investis dans différents fonds et aux dates de naissance des clients.
Les sites pandas
et datetime
ont été importés respectivement sous les noms pd
et dt
.
Cet exercice fait partie du cours
Nettoyage des données en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']
# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____
# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]
# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])