ComeçarComece de graça

Buscando faltas de dados previsíveis

Se os dados estiverem faltando completamente ao acaso, você não deve conseguir prever quando uma variável estará ausente com base no restante dos dados. Portanto, se você consegue prever a ausência de dados, então eles não estão faltando completamente ao acaso. Vamos usar a função glm() para ajustar uma regressão logística, buscando padrões de ausência com base na acessibilidade financeira na variável mort que você criou anteriormente. Se você não encontrar estrutura nos dados ausentes — isto é, os coeficientes de inclinação não forem significativos — isso não significa que você provou que os dados estão ausentes ao acaso, mas é plausível.

Este exercício faz parte do curso

Processamento de Dados em Escala no R

Ver curso

Instruções do exercício

  • Crie uma variável indicando se "borrower_race" está ausente (igual a 9) nos dados de hipoteca.
  • Crie uma variável fator a partir da coluna "affordability".
  • Regresse affordability_factor em borrower_race_ind e chame summary() sobre o resultado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a variable indicating if borrower_race is missing in the mortgage data
borrower_race_ind <- mort[, ___] == 9

# Create a factor variable indicating the affordability
affordability_factor <- ___(mort[, ___])

# Perform a logistic regression
___(glm(___ ~ affordability_factor, family = binomial))
Editar e executar o código