ComeçarComece gratuitamente

Tratamento de dados faltantes

Alguns dos possíveis doadores não possuem dados do site age. Infelizmente, o R excluirá todos os casos com valores NA ao criar um modelo de regressão.

Uma solução alternativa é substituir, ou imputar, os valores ausentes por um valor estimado. Depois de fazer isso, você também pode criar um indicador de dados ausentes para modelar a possibilidade de que os casos com dados ausentes sejam diferentes de alguma forma daqueles sem dados ausentes.

O quadro de dados donors é carregado em seu espaço de trabalho.

Este exercício faz parte do curso

Aprendizagem supervisionada em R: Classificação

Ver Curso

Instruções de exercício

  • Use summary() em donors$age para encontrar a idade média dos clientes potenciais com dados não ausentes.
  • Use ifelse() e o teste is.na(donors$age) para imputar a média (arredondada para 2 casas decimais) para casos com age ausente. Não se esqueça de ignorar também NAs.
  • Crie uma variável binária dummy chamada missing_age que indique a presença de dados ausentes usando outra chamada ifelse() e o mesmo teste.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Find the average age among non-missing values
summary(___)

# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)

# Create missing value indicator for age
donors$missing_age <- ___
Editar e executar código