Imputatie met lineaire regressie
Soms kun je met domeinkennis, eerder onderzoek of simpelweg je gezond verstand de relaties tussen variabelen in je data beschrijven. In zulke gevallen is modelgebaseerde imputatie een uitstekende oplossing: je kunt elke variabele imputeren op basis van een statistisch model dat je zelf specificeert, waarbij je aannames over hoe variabelen elkaar beïnvloeden worden meegenomen.
Voor continue variabelen is lineaire regressie een populaire keuze. Dat beperkt je niet tot alleen lineaire relaties! Je kunt altijd een kwadraatterm of de logaritme van een variabele opnemen als voorspeller. In deze oefening werk je met het simputation-pakket om een enkele lineaire regressie-imputatie uit te voeren op de tao-data en de resultaten te analyseren. Aan de slag!
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the simputation package
___
# Impute air_temp and humidity with linear regression
formula <- ____
tao_imp <- ___(tao, formula)