Imputando a média da temperatura
A imputação pela média pode ser arriscada. Se a variável que você está imputando pela média for correlacionada com outras variáveis, essa correlação pode ser destruída pelos valores imputados. Você viu esse risco no exercício anterior ao analisar a variável air_temp.
Para descobrir se essas preocupações se confirmam, neste exercício você vai aplicar imputação pela média em air_temp e, ao mesmo tempo, criar um indicador binário para marcar onde os valores foram imputados. Isso será útil no próximo exercício, quando você for avaliar o desempenho da sua imputação. Vamos preencher esses valores ausentes!
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Instruções do exercício
- No pipeline que modifica
tao, crie uma nova variável chamadaair_temp_impque sejaTRUEseair_tempestiver ausente eFALSEcaso contrário. - Depois, no mesmo pipeline, sobrescreva
air_tempcom sua própria média sempre que estiver ausente e deixe-o inalterado caso contrário, atribuindo o resultado atao_imp.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
tao_imp <- tao %>%
# Create a binary indicator for missing values in air_temp
___(air_temp_imp = ifelse(___(___), ___, ___)) %>%
# Impute air_temp with its mean
___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))
# Print the first 10 rows of tao_imp
head(tao_imp, 10)