ComeçarComece de graça

Dicas e truques de hot-deck I: imputando dentro de domínios

Um truque que pode ajudar quando a imputação hot-deck quebra as relações entre as variáveis é imputar dentro de domínios. Isso significa que, se a variável a ser imputada for correlacionada com outra variável categórica, você pode simplesmente rodar o hot-deck separadamente para cada uma de suas categorias.

Por exemplo, você pode esperar que a temperatura do ar dependa do tempo, já que estamos observando o aumento das temperaturas médias devido ao aquecimento global. O indicador de tempo disponível nos dados tao é uma variável categórica, year. Primeiro, vamos verificar se a temperatura média do ar é diferente em cada um dos dois anos estudados e, depois, executar o hot-deck dentro dos domínios de ano. Por fim, você vai desenhar o margin plot novamente para avaliar o desempenho da imputação.

Este exercício faz parte do curso

Tratamento de Dados Ausentes com Imputações em R

Ver curso

Instruções do exercício

  • Calcule a média de air_temp para cada ano, chamando o resultado de average_air_temp, excluindo os NAs do cálculo da média.
  • Impute os valores ausentes em air_temp nos dados tao dentro dos domínios de year usando imputação hot-deck e atribua o resultado a tao_imp.
  • Crie um margin plot de air_temp vs sea_surface_temp; lembre-se de incluir air_temp_imp nas variáveis que você passa para a função de plotagem.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Calculate mean air_temp per year
tao %>% 
	group_by(___) %>% 
	summarize(average_air_temp = mean(___, na.rm = ___))

# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(___, ___, ___) %>% 
	marginplot(___ = ___)
Editar e executar o código