LoslegenKostenlos loslegen

Vorhersagbare Missingness finden

Wenn Daten vollständig zufällig fehlen, solltest du nicht vorhersagen können, wann eine Variable fehlt – basierend auf den übrigen Daten. Wenn du fehlende Werte vorhersagen kannst, fehlen die Daten also nicht vollständig zufällig. Verwende daher die Funktion glm(), um eine logistische Regression zu fitten und fehlende Werte in Abhängigkeit von der Bezahlbarkeit im zuvor erstellten mort-Objekt zu untersuchen. Findest du keine Struktur in den fehlenden Daten – d. h. die Steigungskoeffizienten sind nicht signifikant –, heißt das nicht, dass du bewiesen hast, dass die Daten zufällig fehlen, aber es ist plausibel.

Diese Übung ist Teil des Kurses

Skalierbare Datenverarbeitung in R

Kurs anzeigen

Anleitung zur Übung

  • Erzeuge eine Variable, die angibt, ob "borrower_race" im Hypothekendatensatz fehlt (gleich 9).
  • Erzeuge eine Faktorvariable aus der Spalte "affordability".
  • Regrediere affordability_factor auf borrower_race_ind und rufe summary() darauf auf.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9

# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])

# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))
Code bearbeiten und ausführen