LoslegenKostenlos loslegen

Viele Imputationsmodelle kombinieren und vergleichen

Um die verschiedenen Imputationsverfahren zu bewerten, müssen wir sie in einem einzigen Dataframe zusammenführen. Als Nächstes vergleichst du drei unterschiedliche Ansätze zum Umgang mit fehlenden Werten mit dem Datensatz oceanbuoys.

  • Die erste Methode nutzt nur die vollständigen Fälle und ist als ocean_cc geladen.
  • Die zweite Methode imputiert Werte mithilfe eines linearen Modells mit Vorhersagen basierend auf Wind und ist als ocean_imp_lm_wind geladen.

Du erstellst den dritten imputierten Datensatz, ocean_imp_lm_all, mithilfe eines linearen Modells und imputierst die Variablen sea_temp_c, air_temp_c und humidity unter Verwendung der Variablen wind_ew, wind_ns, year, latitude, longitude.

Anschließend fasst du alle Datensätze zusammen (ocean_cc, ocean_imp_lm_wind und ocean_imp_lm_all) und nennst das Ergebnis bound_models.

Diese Übung ist Teil des Kurses

Umgang mit fehlenden Daten in R

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen imputierten Datensatz namens ocean_imp_lm_all mithilfe eines linearen Modells und imputiere die Variablen sea_temp_c, air_temp_c und humidity unter Verwendung der Variablen wind_ew, wind_ns, year, latitude, longitude.
  • Fasse alle Datensätze im selben Objekt zusammen und nenne es bound_models.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create an imputed dataset using a linear models
ocean_imp_lm_all <- bind_shadow(oceanbuoys) %>%
  add_label_shadow() %>%
  impute_lm(sea_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
  impute_lm(air_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
  impute_lm(humidity ~ wind_ew + wind_ns + ___ + ___ + ___)

# Bind the datasets
bound_models <- bind_rows(cc = ___,
                          imp_lm_wind = ___,
                          imp_lm_all = ___,
                          .id = "imp_model")
# Look at the models
bound_models
Code bearbeiten und ausführen