Viele Imputationsmodelle kombinieren und vergleichen
Um die verschiedenen Imputationsverfahren zu bewerten, müssen wir sie in einem einzigen Dataframe zusammenführen. Als Nächstes vergleichst du drei unterschiedliche Ansätze zum Umgang mit fehlenden Werten mit dem Datensatz oceanbuoys.
- Die erste Methode nutzt nur die vollständigen Fälle und ist als
ocean_ccgeladen. - Die zweite Methode imputiert Werte mithilfe eines linearen Modells mit Vorhersagen basierend auf Wind und ist als
ocean_imp_lm_windgeladen.
Du erstellst den dritten imputierten Datensatz, ocean_imp_lm_all, mithilfe eines linearen Modells und imputierst die Variablen sea_temp_c, air_temp_c und humidity unter Verwendung der Variablen wind_ew, wind_ns, year, latitude, longitude.
Anschließend fasst du alle Datensätze zusammen (ocean_cc, ocean_imp_lm_wind und ocean_imp_lm_all) und nennst das Ergebnis bound_models.
Diese Übung ist Teil des Kurses
Umgang mit fehlenden Daten in R
Anleitung zur Übung
- Erstelle einen imputierten Datensatz namens
ocean_imp_lm_allmithilfe eines linearen Modells und imputiere die Variablensea_temp_c,air_temp_cundhumidityunter Verwendung der Variablenwind_ew,wind_ns,year,latitude,longitude. - Fasse alle Datensätze im selben Objekt zusammen und nenne es
bound_models.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create an imputed dataset using a linear models
ocean_imp_lm_all <- bind_shadow(oceanbuoys) %>%
add_label_shadow() %>%
impute_lm(sea_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
impute_lm(air_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
impute_lm(humidity ~ wind_ew + wind_ns + ___ + ___ + ___)
# Bind the datasets
bound_models <- bind_rows(cc = ___,
imp_lm_wind = ___,
imp_lm_all = ___,
.id = "imp_model")
# Look at the models
bound_models