Hot-Deck: Tipps & Tricks II – Sortieren nach korrelierten Variablen
Ein weiterer Trick, der die Leistung der Hot-Deck-Imputation verbessern kann, ist das Sortieren der Daten nach Variablen, die mit der zu imputierenden Variable korrelieren.
In all den Randdiagrammen, die du zuletzt gezeichnet hast, hast du zum Beispiel gesehen, dass die Lufttemperatur stark mit der Meeresoberflächentemperatur korreliert – was sehr plausibel ist. Dieses Wissen kannst du für eine bessere Hot-Deck-Imputation nutzen. Wenn du die Daten zuerst nach sea_surface_temp sortierst, stammt jeder imputierte air_temp-Wert von einem Spender mit ähnlicher sea_surface_temp. Schauen wir uns an, wie das funktioniert!
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Anleitung zur Übung
- Führe eine Hot-Deck-Imputation der fehlenden Werte in
air_tempimtao-Datensatz durch, sortiert nachsea_surface_temp, und weise das Ergebnistao_impzu. - Erstelle ein Randdiagramm (margin plot) von
air_tempgegensea_surface_temp.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(air_temp, sea_surface_temp, air_temp_imp) %>%
___(___ = ___)