LoslegenKostenlos loslegen

Umgang mit fehlenden Daten

Bei einigen der potenziellen Spender fehlen die Daten von age. Leider schließt R beim Erstellen eines Regressionsmodells alle Fälle mit NA Werten aus.

Eine Möglichkeit besteht darin, die fehlenden Werte durch einen geschätzten Wert zu ersetzen oder zu imputieren. Danach kannst du auch einen Indikator für fehlende Daten erstellen, um die Möglichkeit zu modellieren, dass sich Fälle mit fehlenden Daten in irgendeiner Weise von denen ohne unterscheiden.

Der Datenrahmen donors wird in deinen Arbeitsbereich geladen.

Diese Übung ist Teil des Kurses

Überwachtes Lernen in R: Klassifikation

Kurs anzeigen

Anleitung zur Übung

  • Nutze summary() auf donors$age, um das Durchschnittsalter der Interessenten mit nicht fehlenden Daten zu ermitteln.
  • Verwende ifelse() und den Test is.na(donors$age), um den Durchschnitt (gerundet auf 2 Dezimalstellen) für Fälle mit fehlendem age zu berechnen. Achte darauf, dass du auch NAs ignorierst.
  • Erstelle eine binäre Dummy-Variable namens missing_age, die das Vorhandensein fehlender Daten anzeigt, indem du einen weiteren ifelse() -Aufruf und denselben Test verwendest.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Find the average age among non-missing values
summary(___)

# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)

# Create missing value indicator for age
donors$missing_age <- ___
Code bearbeiten und ausführen