Rechercher une absence prévisible

Si des données sont manquantes complètement au hasard, vous ne devriez pas pouvoir prédire l’absence d’une variable à partir du reste des données. Par conséquent, si vous pouvez prédire l’absence, les données ne sont pas manquantes complètement au hasard. Utilisons donc la fonction glm() pour ajuster une régression logistique et rechercher des absences en fonction de l’accessibilité financière dans la variable mort que vous avez créée précédemment. Si vous ne trouvez aucune structure dans les données manquantes — c’est‑à‑dire que les coefficients de pente ne sont pas significatifs — cela ne prouve pas que les données sont manquantes au hasard, mais cela reste plausible.

Cet exercice fait partie du cours

<cours>Traitement de données à grande échelle en R</cours>

Voir le cours

Instructions de l’exercice

Créez une variable indiquant si "borrower_race" est manquant (égal à 9) dans les données de prêts hypothécaires.
Créez une variable factorielle à partir de la colonne "affordability".
Réalisez une régression de affordability_factor sur borrower_race_ind et appelez summary() dessus.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9

# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])

# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))

Modifier et exécuter le code