Hot-Deck: Tricks & Tipps I – Imputieren innerhalb von Domänen
Ein Trick, der helfen kann, wenn Hot-Deck-Imputation die Beziehungen zwischen Variablen verzerrt, ist das Imputieren innerhalb von Domänen. Das bedeutet: Wenn die zu imputierende Variable mit einer anderen, kategorialen Variable korreliert, kannst du Hot-Deck einfach separat für jede ihrer Kategorien ausführen.
Du kannst zum Beispiel erwarten, dass die Lufttemperatur von der Zeit abhängt, da die durchschnittlichen Temperaturen durch die globale Erwärmung steigen. Der Zeitindikator in den tao-Daten ist die kategoriale Variable year. Prüfen wir zunächst, ob sich die durchschnittliche Lufttemperatur in den beiden untersuchten Jahren unterscheidet, und führen dann Hot-Deck innerhalb der Jahresdomänen durch. Abschließend zeichnest du erneut den Margin-Plot, um die Imputationsleistung zu beurteilen.
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Anleitung zur Übung
- Berechne die mittlere
air_tempfür jedes Jahr und nenne das Ergebnisaverage_air_temp. SchließeNAs bei der Mittelwertberechnung aus. - Imputiere die fehlenden Werte in
air_tempin dentao-Daten innerhalb deryear-Domänen mithilfe der Hot-Deck-Imputation und weise das Ergebnistao_impzu. - Erstelle einen Margin-Plot von
air_tempvs.sea_surface_temp; denk daran,air_temp_impin den an die Plotfunktion übergebenen Variablen zu berücksichtigen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Calculate mean air_temp per year
tao %>%
group_by(___) %>%
summarize(average_air_temp = mean(___, na.rm = ___))
# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
marginplot(___ = ___)