Aan de slagGa gratis aan de slag

Omgaan met missende data

In deze oefening werk je met een andere versie van de accounts-gegevens die missende waarden bevat voor zowel de kolommen cust_id als acct_amount.

Je wilt uitzoeken hoeveel unieke klanten de bank heeft en wat het gemiddelde bedrag is dat klanten aanhouden. Je weet dat rijen met een missende cust_id je niet echt helpen, en dat gemiddeld de acct_amount meestal 5 keer zo hoog is als inv_amount.

In deze oefening gooi je rijen uit accounts weg met missende cust_id’s, en vul je missende waarden van inv_amount in met behulp van domeinkennis. dplyr en assertive zijn geladen en accounts is beschikbaar.

Deze oefening maakt deel uit van de cursus

Data opschonen in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create accounts_clean
accounts_clean <- accounts %>%
  # Filter to remove rows with missing cust_id
  ___

accounts_clean
Code bewerken en uitvoeren