Veel imputatiemodellen combineren en vergelijken
Om de verschillende imputatiemethoden te evalueren, moeten we ze in één dataframe zetten. Vervolgens ga je drie aanpakken voor het omgaan met missende waarden vergelijken met de gegevensset oceanbuoys.
- De eerste methode gebruikt alleen de complete cases en is geladen als
ocean_cc. - De tweede methode imputeert waarden met een lineair model met voorspellingen op basis van wind en is geladen als
ocean_imp_lm_wind.
Je maakt de derde geïmputeerde gegevensset, ocean_imp_lm_all, met een lineair model en imputeert de variabelen sea_temp_c, air_temp_c en humidity met de variabelen wind_ew, wind_ns, year, latitude, longitude.
Daarna voeg je alle gegevenssets samen (ocean_cc, ocean_imp_lm_wind en ocean_imp_lm_all) en noem je dit bound_models.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in R
Oefeninstructies
- Maak een geïmputeerde gegevensset met de naam
ocean_imp_lm_allmet een lineair model en imputeer de variabelensea_temp_c,air_temp_cenhumiditymet de variabelenwind_ew,wind_ns,year,latitude,longitude. - Voeg alle gegevenssets samen in hetzelfde object en noem dit
bound_models.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create an imputed dataset using a linear models
ocean_imp_lm_all <- bind_shadow(oceanbuoys) %>%
add_label_shadow() %>%
impute_lm(sea_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
impute_lm(air_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
impute_lm(humidity ~ wind_ew + wind_ns + ___ + ___ + ___)
# Bind the datasets
bound_models <- bind_rows(cc = ___,
imp_lm_wind = ___,
imp_lm_all = ___,
.id = "imp_model")
# Look at the models
bound_models