Dicas e truques de hot-deck II: ordenando por variáveis correlacionadas
Outro truque que pode melhorar o desempenho da imputação hot-deck é ordenar os dados por variáveis correlacionadas com aquela que queremos imputar.
Por exemplo, em todos os margin plots que você desenhou recentemente, deu para ver que a temperatura do ar é fortemente correlacionada com a temperatura da superfície do mar, o que faz bastante sentido. Você pode aproveitar esse conhecimento para melhorar sua imputação hot-deck. Se você primeiro ordenar os dados por sea_surface_temp, então cada valor imputado de air_temp virá de um doador com sea_surface_temp semelhante. Vamos ver como isso funciona na prática!
Este exercício faz parte do curso
Tratamento de Dados Ausentes com Imputações em R
Instruções do exercício
- Faça a imputação hot-deck dos valores ausentes de
air_tempnos dadostao, ordenando porsea_surface_temp, e atribua o resultado atao_imp. - Crie um margin plot de
air_tempversussea_surface_temp.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(air_temp, sea_surface_temp, air_temp_imp) %>%
___(___ = ___)