LoslegenKostenlos loslegen

Daten mit simputation imputieren

Es gibt viele Imputationspakete in R. Wir konzentrieren uns auf das Paket simputation, das eine einfache, leistungsstarke Schnittstelle für Imputationen bietet.

Ein gutes Imputationsmodell zu bauen, ist super wichtig, aber auch komplex – darin steckt genauso viel Arbeit wie in einem guten statistischen Modell. In diesem Kurs legen wir den Fokus darauf, wie man Imputationen bewertet.

Zunächst schauen wir uns die Funktion impute_lm() an, die Werte anhand eines angegebenen linearen Modells imputiert.

In dieser Übung wenden wir die vorherigen Bewertungstechniken auf Daten mit impute_lm() an und bauen in den folgenden Lektionen auf dieser Imputationsmethode auf.

Diese Übung ist Teil des Kurses

Umgang mit fehlenden Daten in R

Kurs anzeigen

Anleitung zur Übung

Mit dem Datensatz oceanbuoys:

  • Imputiere humidity anhand von wind_ew und wind_ns und verfolge fehlende Werte mit add_label_shadow().
  • Plotte die imputierten Werte für air_temp_c und humidity, auf der x- bzw. y-Achse, und färbe nach any_missing().

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>% 
    bind_shadow() %>%
    impute_lm(air_temp_c ~ wind_ew + wind_ns) %>% 
    impute_lm(___ ~ ___ + ___) %>%
    add_label_shadow()
    
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___, 
       aes(x = ___, y = ___, color = any_missing)) + 
  geom_point()
Code bearbeiten und ausführen