LoslegenKostenlos starten

Daten mit simputation imputieren

Es gibt viele Imputationspakete in R. Wir konzentrieren uns auf das Paket simputation, das eine einfache, leistungsstarke Schnittstelle für Imputationen bietet.

Ein gutes Imputationsmodell zu bauen, ist super wichtig, aber auch komplex – darin steckt genauso viel Arbeit wie in einem guten statistischen Modell. In diesem Kurs legen wir den Fokus darauf, wie man Imputationen bewertet.

Zunächst schauen wir uns die Funktion impute_lm() an, die Werte anhand eines angegebenen linearen Modells imputiert.

In dieser Übung wenden wir die vorherigen Bewertungstechniken auf Daten mit impute_lm() an und bauen in den folgenden Lektionen auf dieser Imputationsmethode auf.

Diese Übung ist Teil des Kurses

<Kurs>Umgang mit fehlenden Daten in R</Kurs>
Kurs ansehen

Übungsanweisungen

Mit dem Datensatz oceanbuoys:

  • Imputiere humidity anhand von wind_ew und wind_ns und verfolge fehlende Werte mit add_label_shadow().
  • Plotte die imputierten Werte für air_temp_c und humidity, auf der x- bzw. y-Achse, und färbe nach any_missing().

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>% 
    bind_shadow() %>%
    impute_lm(air_temp_c ~ wind_ew + wind_ns) %>% 
    impute_lm(___ ~ ___ + ___) %>%
    add_label_shadow()
    
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___, 
       aes(x = ___, y = ___, color = any_missing)) + 
  geom_point()
Code bearbeiten und ausführen