Imputationsqualität mit Margin-Plot beurteilen
In der letzten Übung hast du air_temp per Mittelwert imputiert und eine Indikatorvariable hinzugefügt, die anzeigt, welche Werte imputiert wurden: air_temp_imp. Zeit zu prüfen, wie gut das funktioniert hat.
Wenn du dir die tao-Daten angeschaut hast, ist dir vielleicht aufgefallen, dass es auch eine Variable sea_surface_temp gibt, bei der man vernünftigerweise eine positive Korrelation mit air_temp erwarten kann. Trifft das zu, würdest du erwarten, dass beide Temperaturen gleichzeitig hoch oder gleichzeitig niedrig sind. Wenn du die Lufttemperatur mit dem Mittelwert imputierst, während die Meerestemperatur sehr hoch oder sehr niedrig ist, geht diese Beziehung verloren.
Um das herauszufinden, wählst du in dieser Übung die beiden Temperaturvariablen und die Indikatorvariable aus und nutzt sie für einen Margin-Plot. Beurteilen wir die Mittelwertimputation!
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
___(delimiter = ___)