CommencerCommencer gratuitement

Quelle est la qualité de l'intégrité de nos données ?

De nouvelles données ont été intégrées au DataFrame banking, qui contient des informations détaillées sur la répartition des investissements de la colonne inv_amount entre quatre fonds différents, A, B, C et D.

De plus, l'âge et les dates d'anniversaire des clients sont désormais enregistrés respectivement dans les colonnes « age » et « birth_date ».

Vous souhaitez comprendre comment les clients de différentes tranches d'âge investissent. Cependant, il est important de vous assurer au préalable que les données que vous analysez sont correctes. Pour ce faire, vous devrez vérifier les valeurs des champs « inv_amount » et « age » par rapport aux montants investis dans différents fonds et aux dates de naissance des clients. Les sites pandas et datetime ont été importés respectivement sous les noms pd et dt.

Cet exercice fait partie du cours

Nettoyage des données en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']

# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____

# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]

# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])
Modifier et exécuter le code