1. products.learn
  2. /
  3. Course
  4. /
  5. Nettoyage des données en Python

Connected

exercise

Suivez l’argent

Dans cet exercice, vous travaillez avec une autre version du DataFrame banking qui contient des valeurs manquantes pour les colonnes cust_id et acct_amount.

Vous souhaitez analyser le nombre de clients uniques de la banque, le montant moyen détenu par client, et plus encore. Vous savez que les lignes où cust_id est manquant ne vous aident pas vraiment et qu’en moyenne acct_amount correspond généralement à 5 fois le montant de inv_amount.

Dans cet exercice, vous supprimerez les lignes de banking dont le cust_id est manquant et vous imputerez les valeurs manquantes de acct_amount en vous appuyant sur vos connaissances du domaine.

NormalInstructionHeader.heading

100 XP
  • Utilisez .dropna() pour supprimer les valeurs manquantes de la colonne cust_id dans banking et stockez le résultat dans banking_fullid.
  • Utilisez inv_amount pour calculer les montants de compte estimés pour banking_fullid en fixant ces montants à inv_amount * 5, et assignez le résultat à acct_imp.
  • Imputez les valeurs manquantes de acct_amount dans banking_fullid avec le nouveau acct_imp à l’aide de .fillna().