Alla ricerca di dati mancanti prevedibili
Se i dati sono mancanti completamente a caso, non dovresti riuscire a prevedere quando una variabile è mancante in base al resto dei dati. Quindi, se riesci a prevedere la mancanza, i dati non sono mancanti completamente a caso. Usiamo quindi la funzione glm() per adattare una regressione logistica, cercando la mancanza in base all’affordability nella variabile mort che hai creato in precedenza. Se non trovi alcuna struttura nei dati mancanti (cioè, i coefficienti di pendenza non sono significativi), non significa che hai dimostrato che i dati sono mancanti a caso, ma è plausibile.
Questo esercizio fa parte del corso
Elaborazione scalabile dei dati in R
Istruzioni dell'esercizio
- Crea una variabile che indichi se
"borrower_race"è mancante (uguale a 9) nei dati sui mutui. - Crea una variabile fattore dalla colonna
"affordability". - Regrèssa
affordability_factorsuborrower_race_inde chiamasummary()su di essa.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9
# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])
# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))