CommencerCommencer gratuitement

Une question d’argent

Dans cet exercice, vous travaillez avec une autre version du DataFrame banking qui contient des valeurs manquantes pour les colonnes cust_id et acct_amount.

Vous souhaitez réaliser une analyse du nombre de clients uniques de la banque, du montant moyen détenu par les clients, et plus encore. Vous savez que les lignes contenant des données manquantes ne vous sont pas vraiment utiles et que, en moyenne, acct_amount est généralement cinq fois plus important que inv_amount.

Dans cet exercice, vous supprimerez les lignes de banking contenant des données cust_id manquantes, puis vous imputerez les valeurs manquantes de acct_amount à l'aide de vos connaissances du domaine.

Cet exercice fait partie du cours

Nettoyage des données en Python

Afficher le cours

Instructions

  • Utilisez .dropna() pour supprimer les valeurs manquantes de la colonne cust_id dans banking et enregistrez les résultats dans banking_fullid.
  • Utilisez inv_amount pour calculer les montants estimés des comptes pour banking_fullid en définissant les montants égaux à inv_amount * 5, et attribuez les résultats à acct_imp.
  • Veuillez imputer les valeurs manquantes de acct_amount dans banking_fullid à l'aide de la nouvelle table acct_imp créée à l'aide de .fillna().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])

# Compute estimated acct_amount
acct_imp = ____

# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})

# Print number of missing values
print(banking_imputed.isna().sum())
Modifier et exécuter le code