Fehlende Daten behandeln
Bei einigen potenziellen Spendern fehlen age-Daten. Leider schließt R bei der Erstellung eines Regressionsmodells alle Fälle mit NA-Werten aus.
Ein Workaround besteht darin, die fehlenden Werte durch einen geschätzten Wert zu ersetzen, also zu imputieren. Danach kannst du zusätzlich einen Indikator für fehlende Daten erstellen, um zu modellieren, dass sich Fälle mit fehlenden Daten möglicherweise in irgendeiner Weise von denen ohne unterscheiden.
Der Data Frame donors ist in deinem Workspace geladen.
Diese Übung ist Teil des Kurses
Überwachtes Lernen in R: Klassifikation
Anleitung zur Übung
- Verwende
summary()aufdonors$age, um das durchschnittliche Alter der Interessenten mit nicht fehlenden Daten zu ermitteln. - Verwende
ifelse()und den Testis.na(donors$age), um für Fälle mit fehlenderageden Durchschnitt (auf 2 Dezimalstellen gerundet) zu imputieren. Achte darauf,NAs ebenfalls zu ignorieren. - Erstelle eine binäre Dummy-Variable namens
missing_age, die das Vorliegen fehlender Daten anzeigt, mithilfe eines weiterenifelse()-Aufrufs und desselben Tests.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Find the average age among non-missing values
summary(___)
# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)
# Create missing value indicator for age
donors$missing_age <- ___