Segui il denaro
In questo esercizio lavori con un'altra versione del DataFrame banking che contiene valori mancanti sia per la colonna cust_id sia per la colonna acct_amount.
Vuoi analizzare quanti clienti unici ha la banca, l'importo medio detenuto dai clienti e altro ancora. Sai che le righe con cust_id mancanti non sono davvero utili e che in media acct_amount è di solito 5 volte l'importo di inv_amount.
In questo esercizio eliminerai da banking le righe con cust_id mancanti e imputerai i valori mancanti di acct_amount usando alcune conoscenze del dominio.
Questo esercizio fa parte del corso
Pulizia dei dati in Python
Istruzioni dell'esercizio
- Usa
.dropna()per eliminare i valori mancanti della colonnacust_idinbankinge salva il risultato inbanking_fullid. - Usa
inv_amountper calcolare gli importi di conto stimati perbanking_fullidimpostando gli importi uguali ainv_amount * 5, e assegna il risultato aacct_imp. - Imputa i valori mancanti di
acct_amountinbanking_fullidcon il nuovoacct_impusando.fillna().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())