ComeçarComece de graça

Imputando a média da temperatura

A imputação pela média pode ser arriscada. Se a variável que você está imputando pela média for correlacionada com outras variáveis, essa correlação pode ser destruída pelos valores imputados. Você viu esse risco no exercício anterior ao analisar a variável air_temp.

Para descobrir se essas preocupações se confirmam, neste exercício você vai aplicar imputação pela média em air_temp e, ao mesmo tempo, criar um indicador binário para marcar onde os valores foram imputados. Isso será útil no próximo exercício, quando você for avaliar o desempenho da sua imputação. Vamos preencher esses valores ausentes!

Este exercício faz parte do curso

Tratamento de Dados Ausentes com Imputações em R

Ver curso

Instruções do exercício

  • No pipeline que modifica tao, crie uma nova variável chamada air_temp_imp que seja TRUE se air_temp estiver ausente e FALSE caso contrário.
  • Depois, no mesmo pipeline, sobrescreva air_temp com sua própria média sempre que estiver ausente e deixe-o inalterado caso contrário, atribuindo o resultado a tao_imp.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

tao_imp <- tao %>% 
  # Create a binary indicator for missing values in air_temp
  ___(air_temp_imp = ifelse(___(___), ___, ___)) %>% 
  # Impute air_temp with its mean
  ___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))

# Print the first 10 rows of tao_imp
head(tao_imp, 10)
Editar e executar o código