Modelgebaseerde imputatie met meerdere variabeletype
Goed gedaan met het schrijven van de functie voor imputatie met logistische regressie waarbij je trekt uit de conditionele verdeling. Dat is behoorlijk geavanceerde statistiek die je hebt gecodeerd! In deze oefening ga je alles wat je tot nu toe hebt geleerd over modelgebaseerde imputatie combineren om verschillende soorten variabelen in de tao-gegevens te imputeren.
Je taak is om over variabelen te itereren, net zoals je in het vorige hoofdstuk hebt gedaan, en twee variabelen te imputeren:
is_hot, een nieuwe binaire variabele die is afgeleid vanair_temp, die 1 is alsair_temp26 graden of hoger is en anders 0;humidity, een continue variabele waar je al bekend mee bent.
Je moet de lineaire regressiefunctie gebruiken die je eerder hebt geleerd, en ook je eigen functie voor logistische regressie. Aan de slag!
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Oefeninstructies
- Zet
is_hotopNAop de plekken waar het oorspronkelijk ontbrak. - Imputeer
is_hotmet logistische regressie, metsea_surface_tempals enige voorspeller; gebruik je functieimpute_logreg(). - Zet
humidityopNAop de plekken waar het oorspronkelijk ontbrak. - Imputeer
humiditymet lineaire regressie, metsea_surface_tempenair_tempals voorspellers.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)
# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp
for (i in 1:3) {
# Set is_hot to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ ___)
# Set humidity to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}