Suivez l'argent
Dans cet exercice, vous travaillez avec une autre version du DataFrame banking
qui contient des valeurs manquantes pour les colonnes cust_id
et acct_amount
.
Vous souhaitez réaliser une analyse du nombre de clients uniques de la banque, du montant moyen détenu par les clients, etc. Vous savez que les lignes manquantes d'cust_id
s ne vous sont pas vraiment utiles et qu'en moyenne, l'acct_amount
est généralement cinq fois supérieure à l'inv_amount
.
Dans cet exercice, vous supprimerez des lignes d'banking
s contenant des cust_id
s manquantes, puis vous imputerez les valeurs manquantes d'acct_amount
s à l'aide de vos connaissances du domaine.
Cet exercice fait partie du cours
Nettoyage des données dans Python
Instructions
- Veuillez utiliser
.dropna()
pour supprimer les valeurs manquantes de la colonne «cust_id
» dansbanking
et enregistrer les résultats dansbanking_fullid
. - Veuillez utiliser
inv_amount
pour calculer les montants estimés des comptes pourbanking_fullid
en définissant les montants comme étant égaux àinv_amount * 5
, puis attribuez les résultats àacct_imp
. - Imputer les valeurs manquantes de l'
acct_amount
dansbanking_fullid
à l'aide de la nouvelleacct_imp
créée à l'aide de.fillna()
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())