Gegevens imputeren met simputation
Er zijn veel imputation-pakketten in R. We gaan ons richten op het simputation-pakket, dat een eenvoudige, krachtige interface biedt voor het uitvoeren van imputaties.
Een goed imputatiemodel bouwen is superbelangrijk, maar ook complex—er komt net zoveel bij kijken als bij het bouwen van een goed statistisch model. In deze cursus focussen we op hoe je imputaties kunt beoordelen.
Eerst bekijken we de functie impute_lm(), die waarden imputeert op basis van een gespecificeerd lineair model.
In deze oefening passen we de eerdere beoordelingstechnieken toe op gegevens met impute_lm(), en bouwen we in de volgende lessen verder op deze imputatiemethode.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in R
Oefeninstructies
Gebruik de oceanbuoys-gegevensset:
- Imputeer
humiditymetwind_ewenwind_ns, en houd missende waarden bij metadd_label_shadow(). - Plot de geïmputeerde waarden voor
air_temp_cenhumidity, op respectievelijk de x- en y-as, en kleur op basis vanany_missing().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>%
bind_shadow() %>%
impute_lm(air_temp_c ~ wind_ew + wind_ns) %>%
impute_lm(___ ~ ___ + ___) %>%
add_label_shadow()
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___,
aes(x = ___, y = ___, color = any_missing)) +
geom_point()