Fehlende Daten behandeln

Bei einigen potenziellen Spendern fehlen age-Daten. Leider schließt R bei der Erstellung eines Regressionsmodells alle Fälle mit NA-Werten aus.

Ein Workaround besteht darin, die fehlenden Werte durch einen geschätzten Wert zu ersetzen, also zu imputieren. Danach kannst du zusätzlich einen Indikator für fehlende Daten erstellen, um zu modellieren, dass sich Fälle mit fehlenden Daten möglicherweise in irgendeiner Weise von denen ohne unterscheiden.

Der Data Frame donors ist in deinem Workspace geladen.

Diese Übung ist Teil des Kurses

Überwachtes Lernen in R: Klassifikation

Kurs anzeigen

Anleitung zur Übung

Verwende summary() auf donors$age, um das durchschnittliche Alter der Interessenten mit nicht fehlenden Daten zu ermitteln.
Verwende ifelse() und den Test is.na(donors$age), um für Fälle mit fehlender age den Durchschnitt (auf 2 Dezimalstellen gerundet) zu imputieren. Achte darauf, NAs ebenfalls zu ignorieren.
Erstelle eine binäre Dummy-Variable namens missing_age, die das Vorliegen fehlender Daten anzeigt, mithilfe eines weiteren ifelse()-Aufrufs und desselben Tests.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Find the average age among non-missing values
summary(___)

# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)

# Create missing value indicator for age
donors$missing_age <- ___

Code bearbeiten und ausführen