Vorhersagbare Missingness finden
Wenn Daten vollständig zufällig fehlen, solltest du nicht vorhersagen können, wann eine Variable fehlt – basierend auf den übrigen Daten. Wenn du fehlende Werte vorhersagen kannst, fehlen die Daten also nicht vollständig zufällig. Verwende daher die Funktion glm(), um eine logistische Regression zu fitten und fehlende Werte in Abhängigkeit von der Bezahlbarkeit im zuvor erstellten mort-Objekt zu untersuchen. Findest du keine Struktur in den fehlenden Daten – d. h. die Steigungskoeffizienten sind nicht signifikant –, heißt das nicht, dass du bewiesen hast, dass die Daten zufällig fehlen, aber es ist plausibel.
Diese Übung ist Teil des Kurses
Skalierbare Datenverarbeitung in R
Anleitung zur Übung
- Erzeuge eine Variable, die angibt, ob
"borrower_race"im Hypothekendatensatz fehlt (gleich 9). - Erzeuge eine Faktorvariable aus der Spalte
"affordability". - Regrediere
affordability_factoraufborrower_race_indund rufesummary()darauf auf.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9
# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])
# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))