ComeçarComece de graça

Dicas e truques de hot-deck II: ordenando por variáveis correlacionadas

Outro truque que pode melhorar o desempenho da imputação hot-deck é ordenar os dados por variáveis correlacionadas com aquela que queremos imputar.

Por exemplo, em todos os margin plots que você desenhou recentemente, deu para ver que a temperatura do ar é fortemente correlacionada com a temperatura da superfície do mar, o que faz bastante sentido. Você pode aproveitar esse conhecimento para melhorar sua imputação hot-deck. Se você primeiro ordenar os dados por sea_surface_temp, então cada valor imputado de air_temp virá de um doador com sea_surface_temp semelhante. Vamos ver como isso funciona na prática!

Este exercício faz parte do curso

Tratamento de Dados Ausentes com Imputações em R

Ver curso

Instruções do exercício

  • Faça a imputação hot-deck dos valores ausentes de air_temp nos dados tao, ordenando por sea_surface_temp, e atribua o resultado a tao_imp.
  • Crie um margin plot de air_temp versus sea_surface_temp.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(air_temp, sea_surface_temp, air_temp_imp) %>% 
	___(___ = ___)
Editar e executar o código