Omgaan met missende data
In deze oefening werk je met een andere versie van de accounts-gegevens die missende waarden bevat voor zowel de kolommen cust_id als acct_amount.
Je wilt uitzoeken hoeveel unieke klanten de bank heeft en wat het gemiddelde bedrag is dat klanten aanhouden. Je weet dat rijen met een missende cust_id je niet echt helpen, en dat gemiddeld de acct_amount meestal 5 keer zo hoog is als inv_amount.
In deze oefening gooi je rijen uit accounts weg met missende cust_id’s, en vul je missende waarden van inv_amount in met behulp van domeinkennis. dplyr en assertive zijn geladen en accounts is beschikbaar.
Deze oefening maakt deel uit van de cursus
Data opschonen in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create accounts_clean
accounts_clean <- accounts %>%
# Filter to remove rows with missing cust_id
___
accounts_clean