1. 学ぶ
  2. /
  3. コース
  4. /
  5. Nettoyage des données en Python

Connected

演習

Qu’en est-il de l’intégrité de nos données ?

De nouvelles données ont été fusionnées dans le DataFrame banking, contenant des détails sur la façon dont les placements de la colonne inv_amount sont répartis entre quatre fonds A, B, C et D.

De plus, l’âge et la date de naissance des clients sont maintenant enregistrés dans les colonnes age et birth_date, respectivement.

Vous souhaitez comprendre comment les clients de différents groupes d’âge investissent. Cependant, vous voulez d’abord vous assurer que les données que vous analysez sont exactes. Pour ce faire, vous allez effectuer une validation croisée des champs en comparant les valeurs de inv_amount et age avec les montants investis dans les différents fonds et avec les dates de naissance des clients. pandas et datetime ont déjà été importés sous les alias pd et dt.

指示1 / 2

undefined XP
  • 1
    • Trouvez les lignes où la somme, par ligne, de toutes les fund_columns dans banking est égale à la colonne inv_amount.
    • Stockez les lignes de banking ayant un inv_amount cohérent dans consistent_inv, et celles ayant une incohérence dans inconsistent_inv.
  • 2
    • Stockez la date d’aujourd’hui dans today, puis calculez manuellement l’âge des clients et enregistrez le résultat dans ages_manual.
    • Repérez toutes les lignes de banking où la colonne age est égale à ages_manual, puis filtrez banking en consistent_ages et inconsistent_ages.