LoslegenKostenlos loslegen

Hot-Deck: Tipps & Tricks II – Sortieren nach korrelierten Variablen

Ein weiterer Trick, der die Leistung der Hot-Deck-Imputation verbessern kann, ist das Sortieren der Daten nach Variablen, die mit der zu imputierenden Variable korrelieren.

In all den Randdiagrammen, die du zuletzt gezeichnet hast, hast du zum Beispiel gesehen, dass die Lufttemperatur stark mit der Meeresoberflächentemperatur korreliert – was sehr plausibel ist. Dieses Wissen kannst du für eine bessere Hot-Deck-Imputation nutzen. Wenn du die Daten zuerst nach sea_surface_temp sortierst, stammt jeder imputierte air_temp-Wert von einem Spender mit ähnlicher sea_surface_temp. Schauen wir uns an, wie das funktioniert!

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Kurs anzeigen

Anleitung zur Übung

  • Führe eine Hot-Deck-Imputation der fehlenden Werte in air_temp im tao-Datensatz durch, sortiert nach sea_surface_temp, und weise das Ergebnis tao_imp zu.
  • Erstelle ein Randdiagramm (margin plot) von air_temp gegen sea_surface_temp.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(air_temp, sea_surface_temp, air_temp_imp) %>% 
	___(___ = ___)
Code bearbeiten und ausführen