Daten mit simputation imputieren
Es gibt viele Imputationspakete in R. Wir konzentrieren uns auf das Paket simputation, das eine einfache, leistungsstarke Schnittstelle für Imputationen bietet.
Ein gutes Imputationsmodell zu bauen, ist super wichtig, aber auch komplex – darin steckt genauso viel Arbeit wie in einem guten statistischen Modell. In diesem Kurs legen wir den Fokus darauf, wie man Imputationen bewertet.
Zunächst schauen wir uns die Funktion impute_lm() an, die Werte anhand eines angegebenen linearen Modells imputiert.
In dieser Übung wenden wir die vorherigen Bewertungstechniken auf Daten mit impute_lm() an und bauen in den folgenden Lektionen auf dieser Imputationsmethode auf.
Diese Übung ist Teil des Kurses
Umgang mit fehlenden Daten in R
Anleitung zur Übung
Mit dem Datensatz oceanbuoys:
- Imputiere
humidityanhand vonwind_ewundwind_nsund verfolge fehlende Werte mitadd_label_shadow(). - Plotte die imputierten Werte für
air_temp_cundhumidity, auf der x- bzw. y-Achse, und färbe nachany_missing().
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>%
bind_shadow() %>%
impute_lm(air_temp_c ~ wind_ew + wind_ns) %>%
impute_lm(___ ~ ___ + ___) %>%
add_label_shadow()
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___,
aes(x = ___, y = ___, color = any_missing)) +
geom_point()