Dicas e truques de hot-deck I: imputando dentro de domínios
Um truque que pode ajudar quando a imputação hot-deck quebra as relações entre as variáveis é imputar dentro de domínios. Isso significa que, se a variável a ser imputada for correlacionada com outra variável categórica, você pode simplesmente rodar o hot-deck separadamente para cada uma de suas categorias.
Por exemplo, você pode esperar que a temperatura do ar dependa do tempo, já que estamos observando o aumento das temperaturas médias devido ao aquecimento global. O indicador de tempo disponível nos dados tao é uma variável categórica, year. Primeiro, vamos verificar se a temperatura média do ar é diferente em cada um dos dois anos estudados e, depois, executar o hot-deck dentro dos domínios de ano. Por fim, você vai desenhar o margin plot novamente para avaliar o desempenho da imputação.
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Instruções do exercício
- Calcule a média de
air_temppara cada ano, chamando o resultado deaverage_air_temp, excluindo osNAs do cálculo da média. - Impute os valores ausentes em
air_tempnos dadostaodentro dos domínios deyearusando imputação hot-deck e atribua o resultado atao_imp. - Crie um margin plot de
air_tempvssea_surface_temp; lembre-se de incluirair_temp_impnas variáveis que você passa para a função de plotagem.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Calculate mean air_temp per year
tao %>%
group_by(___) %>%
summarize(average_air_temp = mean(___, na.rm = ___))
# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
marginplot(___ = ___)