CommencerCommencer gratuitement

Suivez l'argent

Dans cet exercice, vous travaillez avec une autre version du DataFrame banking qui contient des valeurs manquantes pour les colonnes cust_id et acct_amount.

Vous souhaitez réaliser une analyse du nombre de clients uniques de la banque, du montant moyen détenu par les clients, etc. Vous savez que les lignes manquantes d'cust_id s ne vous sont pas vraiment utiles et qu'en moyenne, l'acct_amount est généralement cinq fois supérieure à l'inv_amount.

Dans cet exercice, vous supprimerez des lignes d'banking s contenant des cust_ids manquantes, puis vous imputerez les valeurs manquantes d'acct_amount s à l'aide de vos connaissances du domaine.

Cet exercice fait partie du cours

Nettoyage des données dans Python

Afficher le cours

Instructions

  • Veuillez utiliser .dropna() pour supprimer les valeurs manquantes de la colonne « cust_id » dans banking et enregistrer les résultats dans banking_fullid.
  • Veuillez utiliser inv_amount pour calculer les montants estimés des comptes pour banking_fullid en définissant les montants comme étant égaux à inv_amount * 5, puis attribuez les résultats à acct_imp.
  • Imputer les valeurs manquantes de l'acct_amount dans banking_fullid à l'aide de la nouvelle acct_imp créée à l'aide de .fillna().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])

# Compute estimated acct_amount
acct_imp = ____

# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})

# Print number of missing values
print(banking_imputed.isna().sum())
Modifier et exécuter le code