Aan de slagGa gratis aan de slag

Zoeken naar voorspelbare ontbrekende waarden

Als gegevens volledig willekeurig ontbreken, zou je niet moeten kunnen voorspellen wanneer een variabele ontbreekt op basis van de rest van de data. Kun je het ontbreken wel voorspellen, dan ontbreken de gegevens niet volledig willekeurig. Laten we daarom de functie glm() gebruiken om een logistische regressie te fitten, waarbij we ontbrekende waarden proberen te verklaren met betaalbaarheid in de mort-variabele die je eerder hebt gemaakt. Als je geen structuur vindt in de ontbrekende data — d.w.z. de hellingcoëfficiënten zijn niet significant — betekent dat niet dat je hebt bewezen dat de data willekeurig ontbreken, maar het is wel aannemelijk.

Deze oefening maakt deel uit van de cursus

Schaalbare gegevensverwerking in R

Cursus bekijken

Oefeninstructies

  • Maak een variabele die aangeeft of "borrower_race" ontbreekt (gelijk is aan 9) in de hypotheekdata.
  • Maak een factorvariabele van de kolom "affordability".
  • Regress affordability_factor op borrower_race_ind en roep summary() erop aan.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9

# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])

# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))
Code bewerken en uitvoeren