Umgang mit fehlenden Daten
Bei einigen der potenziellen Spender fehlen die Daten von age
. Leider schließt R beim Erstellen eines Regressionsmodells alle Fälle mit NA
Werten aus.
Eine Möglichkeit besteht darin, die fehlenden Werte durch einen geschätzten Wert zu ersetzen oder zu imputieren. Danach kannst du auch einen Indikator für fehlende Daten erstellen, um die Möglichkeit zu modellieren, dass sich Fälle mit fehlenden Daten in irgendeiner Weise von denen ohne unterscheiden.
Der Datenrahmen donors
wird in deinen Arbeitsbereich geladen.
Diese Übung ist Teil des Kurses
Überwachtes Lernen in R: Klassifikation
Anleitung zur Übung
- Nutze
summary()
aufdonors$age
, um das Durchschnittsalter der Interessenten mit nicht fehlenden Daten zu ermitteln. - Verwende
ifelse()
und den Testis.na(donors$age)
, um den Durchschnitt (gerundet auf 2 Dezimalstellen) für Fälle mit fehlendemage
zu berechnen. Achte darauf, dass du auchNA
s ignorierst. - Erstelle eine binäre Dummy-Variable namens
missing_age
, die das Vorhandensein fehlender Daten anzeigt, indem du einen weiterenifelse()
-Aufruf und denselben Test verwendest.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Find the average age among non-missing values
summary(___)
# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)
# Create missing value indicator for age
donors$missing_age <- ___