Trucos y consejos de hot-deck II: ordenar por variables correlacionadas
Otro truco que puede mejorar el rendimiento de la imputación hot-deck es ordenar los datos por variables que estén correlacionadas con la que queremos imputar.
Por ejemplo, en todos los margin plots que has estado dibujando últimamente, has visto que la temperatura del aire está fuertemente correlacionada con la temperatura de la superficie del mar, lo cual tiene mucho sentido. Puedes aprovechar este conocimiento para mejorar tu imputación hot-deck. Si primero ordenas los datos por sea_surface_temp, entonces cada valor imputado de air_temp vendrá de un donante con una sea_surface_temp similar. ¡Vamos a ver cómo funciona!
Este ejercicio forma parte del curso
Tratamiento de datos faltantes con imputaciones en R
Instrucciones del ejercicio
- Imputa con hot-deck los valores faltantes de
air_tempen los datostao, ordenando porsea_surface_temp, y asigna el resultado atao_imp. - Crea un margin plot de
air_tempfrente asea_surface_temp.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(air_temp, sea_surface_temp, air_temp_imp) %>%
___(___ = ___)