Aan de slagGa gratis aan de slag

Omgaan met ontbrekende gegevens

Bij sommige potentiële donateurs ontbreekt age-data. Helaas sluit R alle gevallen met NA-waarden uit bij het bouwen van een regressiemodel.

Een oplossing is om de ontbrekende waarden te vervangen, ofwel te imputeren, met een geschatte waarde. Daarna kun je ook een indicator voor ontbrekende data maken om te modelleren dat gevallen met ontbrekende data mogelijk op een of andere manier verschillen van gevallen zonder ontbrekende data.

Het data frame donors is in je werkruimte geladen.

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Classificatie

Cursus bekijken

Oefeninstructies

  • Gebruik summary() op donors$age om de gemiddelde leeftijd te vinden van prospects met niet-ontbrekende data.
  • Gebruik ifelse() en de test is.na(donors$age) om voor gevallen met ontbrekende age het gemiddelde (afgerond op 2 decimalen) te imputeren. Zorg er ook voor dat je NA's negeert.
  • Maak een binaire dummyvariabele met de naam missing_age die de aanwezigheid van ontbrekende data aangeeft met een andere ifelse()-aanroep en dezelfde test.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Find the average age among non-missing values
summary(___)

# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)

# Create missing value indicator for age
donors$missing_age <- ___
Code bewerken en uitvoeren