Mittelwert-Imputation der Temperatur
Mittelwert-Imputation kann heikel sein. Wenn die Variable, die du per Mittelwert imputierst, mit anderen Variablen korreliert ist, können diese Korrelationen durch die imputierten Werte zerstört werden. Das hast du in der vorherigen Übung schon erahnt, als du die Variable air_temp analysiert hast.
Um herauszufinden, ob diese Bedenken berechtigt sind, führst du in dieser Übung eine Mittelwert-Imputation für air_temp durch und erstellst gleichzeitig einen binären Indikator dafür, wo Werte imputiert wurden. Das ist in der nächsten Übung hilfreich, wenn du die Leistung deiner Imputation bewertest. Füllen wir die fehlenden Werte aus!
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Anleitung zur Übung
- Erstelle in der Pipeline, die
taoverändert, eine neue Variable namensair_temp_imp, dieTRUEist, wennair_tempfehlt, und sonstFALSE. - Überschreibe später in derselben Pipeline
air_tempmit seinem eigenen Mittelwert, wann immer er fehlt, und lass ihn andernfalls unverändert. Weise das Ergebnistao_impzu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
tao_imp <- tao %>%
# Create a binary indicator for missing values in air_temp
___(air_temp_imp = ifelse(___(___), ___, ___)) %>%
# Impute air_temp with its mean
___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))
# Print the first 10 rows of tao_imp
head(tao_imp, 10)