Omgaan met ontbrekende gegevens
Bij sommige potentiële donateurs ontbreekt age-data. Helaas sluit R alle gevallen met NA-waarden uit bij het bouwen van een regressiemodel.
Een oplossing is om de ontbrekende waarden te vervangen, ofwel te imputeren, met een geschatte waarde. Daarna kun je ook een indicator voor ontbrekende data maken om te modelleren dat gevallen met ontbrekende data mogelijk op een of andere manier verschillen van gevallen zonder ontbrekende data.
Het data frame donors is in je werkruimte geladen.
Deze oefening maakt deel uit van de cursus
Supervised Learning in R: Classificatie
Oefeninstructies
- Gebruik
summary()opdonors$ageom de gemiddelde leeftijd te vinden van prospects met niet-ontbrekende data. - Gebruik
ifelse()en de testis.na(donors$age)om voor gevallen met ontbrekendeagehet gemiddelde (afgerond op 2 decimalen) te imputeren. Zorg er ook voor dat jeNA's negeert. - Maak een binaire dummyvariabele met de naam
missing_agedie de aanwezigheid van ontbrekende data aangeeft met een andereifelse()-aanroep en dezelfde test.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Find the average age among non-missing values
summary(___)
# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)
# Create missing value indicator for age
donors$missing_age <- ___