Buscando faltas de dados previsíveis
Se os dados estiverem faltando completamente ao acaso, você não deve conseguir prever quando uma variável estará ausente com base no restante dos dados. Portanto, se você consegue prever a ausência de dados, então eles não estão faltando completamente ao acaso. Vamos usar a função glm() para ajustar uma regressão logística, buscando padrões de ausência com base na acessibilidade financeira na variável mort que você criou anteriormente. Se você não encontrar estrutura nos dados ausentes — isto é, os coeficientes de inclinação não forem significativos — isso não significa que você provou que os dados estão ausentes ao acaso, mas é plausível.
Este exercício faz parte do curso
Processamento de Dados em Escala no R
Instruções do exercício
- Crie uma variável indicando se
"borrower_race"está ausente (igual a 9) nos dados de hipoteca. - Crie uma variável fator a partir da coluna
"affordability". - Regresse
affordability_factoremborrower_race_inde chamesummary()sobre o resultado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9
# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])
# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))