Buscando ausencias predecibles
Si los datos faltan completamente al azar, no deberías poder predecir cuándo falta una variable a partir del resto de los datos. Por tanto, si puedes predecir la ausencia, entonces los datos no faltan completamente al azar. Así que usemos la función glm() para ajustar una regresión logística, buscando ausencias en función de la asequibilidad en la variable mort que creaste antes. Si no encuentras ninguna estructura en los datos faltantes —es decir, las variables de pendiente no son significativas—, no significa que hayas demostrado que los datos faltan al azar, pero es plausible.
Este ejercicio forma parte del curso
Procesamiento de datos escalable en R
Instrucciones del ejercicio
- Crea una variable que indique si
"borrower_race"falta (es igual a 9) en los datos de hipotecas. - Crea una variable factor de la columna
"affordability". - Regresa
affordability_factorsobreborrower_race_indy llama asummary()sobre el modelo.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9
# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])
# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))