Une question d’argent
Dans cet exercice, vous travaillez avec une autre version du DataFrame banking qui contient des valeurs manquantes pour les colonnes cust_id et acct_amount.
Vous souhaitez réaliser une analyse du nombre de clients uniques de la banque, du montant moyen détenu par les clients, et plus encore. Vous savez que les lignes contenant des données manquantes ne vous sont pas vraiment utiles et que, en moyenne, acct_amount est généralement cinq fois plus important que inv_amount.
Dans cet exercice, vous supprimerez les lignes de banking contenant des données cust_id manquantes, puis vous imputerez les valeurs manquantes de acct_amount à l'aide de vos connaissances du domaine.
Cet exercice fait partie du cours
Nettoyage des données en Python
Instructions
- Utilisez
.dropna()pour supprimer les valeurs manquantes de la colonnecust_iddansbankinget enregistrez les résultats dansbanking_fullid. - Utilisez
inv_amountpour calculer les montants estimés des comptes pourbanking_fulliden définissant les montants égaux àinv_amount * 5, et attribuez les résultats àacct_imp. - Veuillez imputer les valeurs manquantes de
acct_amountdansbanking_fullidà l'aide de la nouvelle tableacct_impcréée à l'aide de.fillna().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())