Aan de slagGa gratis aan de slag

Veel imputatiemodellen combineren en vergelijken

Om de verschillende imputatiemethoden te evalueren, moeten we ze in één dataframe zetten. Vervolgens ga je drie aanpakken voor het omgaan met missende waarden vergelijken met de gegevensset oceanbuoys.

  • De eerste methode gebruikt alleen de complete cases en is geladen als ocean_cc.
  • De tweede methode imputeert waarden met een lineair model met voorspellingen op basis van wind en is geladen als ocean_imp_lm_wind.

Je maakt de derde geïmputeerde gegevensset, ocean_imp_lm_all, met een lineair model en imputeert de variabelen sea_temp_c, air_temp_c en humidity met de variabelen wind_ew, wind_ns, year, latitude, longitude.

Daarna voeg je alle gegevenssets samen (ocean_cc, ocean_imp_lm_wind en ocean_imp_lm_all) en noem je dit bound_models.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

Cursus bekijken

Oefeninstructies

  • Maak een geïmputeerde gegevensset met de naam ocean_imp_lm_all met een lineair model en imputeer de variabelen sea_temp_c, air_temp_c en humidity met de variabelen wind_ew, wind_ns, year, latitude, longitude.
  • Voeg alle gegevenssets samen in hetzelfde object en noem dit bound_models.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create an imputed dataset using a linear models
ocean_imp_lm_all <- bind_shadow(oceanbuoys) %>%
  add_label_shadow() %>%
  impute_lm(sea_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
  impute_lm(air_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
  impute_lm(humidity ~ wind_ew + wind_ns + ___ + ___ + ___)

# Bind the datasets
bound_models <- bind_rows(cc = ___,
                          imp_lm_wind = ___,
                          imp_lm_all = ___,
                          .id = "imp_model")
# Look at the models
bound_models
Code bewerken en uitvoeren