Aan de slagGa gratis aan de slag

Volg het geld

In deze oefening werk je met een andere versie van de banking-DataFrame die ontbrekende waarden bevat voor zowel de kolom cust_id als de kolom acct_amount.

Je wilt analyses maken over hoeveel unieke klanten de bank heeft, het gemiddelde bedrag dat klanten aanhouden en meer. Je weet dat rijen met een ontbrekende cust_id je niet echt helpen, en dat acct_amount gemiddeld meestal 5 keer zo groot is als inv_amount.

In deze oefening verwijder je rijen van banking met ontbrekende cust_id’s en imputeer je ontbrekende waarden van acct_amount met wat domeinkennis.

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Cursus bekijken

Oefeninstructies

  • Gebruik .dropna() om ontbrekende waarden in de kolom cust_id in banking te verwijderen en sla de resultaten op in banking_fullid.
  • Gebruik inv_amount om de geschatte rekeningbedragen voor banking_fullid te berekenen door de bedragen gelijk te zetten aan inv_amount * 5, en wijs de resultaten toe aan acct_imp.
  • Imputeer de ontbrekende waarden van acct_amount in banking_fullid met de nieuw aangemaakte acct_imp met .fillna().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])

# Compute estimated acct_amount
acct_imp = ____

# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})

# Print number of missing values
print(banking_imputed.isna().sum())
Code bewerken en uitvoeren