LoslegenKostenlos loslegen

Mittelwert-Imputation der Temperatur

Mittelwert-Imputation kann heikel sein. Wenn die Variable, die du per Mittelwert imputierst, mit anderen Variablen korreliert ist, können diese Korrelationen durch die imputierten Werte zerstört werden. Das hast du in der vorherigen Übung schon erahnt, als du die Variable air_temp analysiert hast.

Um herauszufinden, ob diese Bedenken berechtigt sind, führst du in dieser Übung eine Mittelwert-Imputation für air_temp durch und erstellst gleichzeitig einen binären Indikator dafür, wo Werte imputiert wurden. Das ist in der nächsten Übung hilfreich, wenn du die Leistung deiner Imputation bewertest. Füllen wir die fehlenden Werte aus!

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Kurs anzeigen

Anleitung zur Übung

  • Erstelle in der Pipeline, die tao verändert, eine neue Variable namens air_temp_imp, die TRUE ist, wenn air_temp fehlt, und sonst FALSE.
  • Überschreibe später in derselben Pipeline air_temp mit seinem eigenen Mittelwert, wann immer er fehlt, und lass ihn andernfalls unverändert. Weise das Ergebnis tao_imp zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

tao_imp <- tao %>% 
  # Create a binary indicator for missing values in air_temp
  ___(air_temp_imp = ifelse(___(___), ___, ___)) %>% 
  # Impute air_temp with its mean
  ___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))

# Print the first 10 rows of tao_imp
head(tao_imp, 10)
Code bearbeiten und ausführen