LoslegenKostenlos loslegen

Hot-Deck: Tricks & Tipps I – Imputieren innerhalb von Domänen

Ein Trick, der helfen kann, wenn Hot-Deck-Imputation die Beziehungen zwischen Variablen verzerrt, ist das Imputieren innerhalb von Domänen. Das bedeutet: Wenn die zu imputierende Variable mit einer anderen, kategorialen Variable korreliert, kannst du Hot-Deck einfach separat für jede ihrer Kategorien ausführen.

Du kannst zum Beispiel erwarten, dass die Lufttemperatur von der Zeit abhängt, da die durchschnittlichen Temperaturen durch die globale Erwärmung steigen. Der Zeitindikator in den tao-Daten ist die kategoriale Variable year. Prüfen wir zunächst, ob sich die durchschnittliche Lufttemperatur in den beiden untersuchten Jahren unterscheidet, und führen dann Hot-Deck innerhalb der Jahresdomänen durch. Abschließend zeichnest du erneut den Margin-Plot, um die Imputationsleistung zu beurteilen.

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Kurs anzeigen

Anleitung zur Übung

  • Berechne die mittlere air_temp für jedes Jahr und nenne das Ergebnis average_air_temp. Schließe NAs bei der Mittelwertberechnung aus.
  • Imputiere die fehlenden Werte in air_temp in den tao-Daten innerhalb der year-Domänen mithilfe der Hot-Deck-Imputation und weise das Ergebnis tao_imp zu.
  • Erstelle einen Margin-Plot von air_temp vs. sea_surface_temp; denk daran, air_temp_imp in den an die Plotfunktion übergebenen Variablen zu berücksichtigen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Calculate mean air_temp per year
tao %>% 
	group_by(___) %>% 
	summarize(average_air_temp = mean(___, na.rm = ___))

# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(___, ___, ___) %>% 
	marginplot(___ = ___)
Code bearbeiten und ausführen