Tratamento de dados faltantes
Alguns dos possíveis doadores não possuem dados do site age
. Infelizmente, o R excluirá todos os casos com valores NA
ao criar um modelo de regressão.
Uma solução alternativa é substituir, ou imputar, os valores ausentes por um valor estimado. Depois de fazer isso, você também pode criar um indicador de dados ausentes para modelar a possibilidade de que os casos com dados ausentes sejam diferentes de alguma forma daqueles sem dados ausentes.
O quadro de dados donors
é carregado em seu espaço de trabalho.
Este exercício faz parte do curso
Aprendizagem supervisionada em R: Classificação
Instruções de exercício
- Use
summary()
emdonors$age
para encontrar a idade média dos clientes potenciais com dados não ausentes. - Use
ifelse()
e o testeis.na(donors$age)
para imputar a média (arredondada para 2 casas decimais) para casos comage
ausente. Não se esqueça de ignorar tambémNA
s. - Crie uma variável binária dummy chamada
missing_age
que indique a presença de dados ausentes usando outra chamadaifelse()
e o mesmo teste.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Find the average age among non-missing values
summary(___)
# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)
# Create missing value indicator for age
donors$missing_age <- ___