Rechercher une absence prévisible
Si des données sont manquantes complètement au hasard, vous ne devriez pas pouvoir prédire l’absence d’une variable à partir du reste des données. Par conséquent, si vous pouvez prédire l’absence, les données ne sont pas manquantes complètement au hasard. Utilisons donc la fonction glm() pour ajuster une régression logistique et rechercher des absences en fonction de l’accessibilité financière dans la variable mort que vous avez créée précédemment. Si vous ne trouvez aucune structure dans les données manquantes — c’est‑à‑dire que les coefficients de pente ne sont pas significatifs — cela ne prouve pas que les données sont manquantes au hasard, mais cela reste plausible.
Cet exercice fait partie du cours
Traitement de données à grande échelle en R
Instructions
- Créez une variable indiquant si
"borrower_race"est manquant (égal à 9) dans les données de prêts hypothécaires. - Créez une variable factorielle à partir de la colonne
"affordability". - Réalisez une régression de
affordability_factorsurborrower_race_indet appelezsummary()dessus.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9
# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])
# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))