Volg het geld
In deze oefening werk je met een andere versie van de banking-DataFrame die ontbrekende waarden bevat voor zowel de kolom cust_id als de kolom acct_amount.
Je wilt analyses maken over hoeveel unieke klanten de bank heeft, het gemiddelde bedrag dat klanten aanhouden en meer. Je weet dat rijen met een ontbrekende cust_id je niet echt helpen, en dat acct_amount gemiddeld meestal 5 keer zo groot is als inv_amount.
In deze oefening verwijder je rijen van banking met ontbrekende cust_id’s en imputeer je ontbrekende waarden van acct_amount met wat domeinkennis.
Deze oefening maakt deel uit van de cursus
Data opschonen in Python
Oefeninstructies
- Gebruik
.dropna()om ontbrekende waarden in de kolomcust_idinbankingte verwijderen en sla de resultaten op inbanking_fullid. - Gebruik
inv_amountom de geschatte rekeningbedragen voorbanking_fullidte berekenen door de bedragen gelijk te zetten aaninv_amount * 5, en wijs de resultaten toe aanacct_imp. - Imputeer de ontbrekende waarden van
acct_amountinbanking_fullidmet de nieuw aangemaakteacct_impmet.fillna().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())