Imputação com regressão linear
Às vezes, você pode usar conhecimento do domínio, pesquisas anteriores ou simplesmente o bom senso para descrever as relações entre as variáveis do seu conjunto de dados. Nesses casos, a imputação baseada em modelos é uma ótima solução, pois permite imputar cada variável de acordo com um modelo estatístico que você mesmo pode especificar, levando em conta quaisquer suposições sobre como as variáveis se influenciam.
Para variáveis contínuas, um modelo popular é a regressão linear. Ela não limita você apenas a relações lineares! Você sempre pode incluir o quadrado ou o logaritmo de uma variável entre os preditores. Neste exercício, você vai usar o pacote simputation para realizar uma única imputação por regressão linear nos dados tao e analisar os resultados. Vamos lá!
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the simputation package
___
# Impute air_temp and humidity with linear regression
formula <- ____
tao_imp <- ___(tao, formula)