ComenzarEmpieza gratis

Trucos y consejos de hot-deck II: ordenar por variables correlacionadas

Otro truco que puede mejorar el rendimiento de la imputación hot-deck es ordenar los datos por variables que estén correlacionadas con la que queremos imputar.

Por ejemplo, en todos los margin plots que has estado dibujando últimamente, has visto que la temperatura del aire está fuertemente correlacionada con la temperatura de la superficie del mar, lo cual tiene mucho sentido. Puedes aprovechar este conocimiento para mejorar tu imputación hot-deck. Si primero ordenas los datos por sea_surface_temp, entonces cada valor imputado de air_temp vendrá de un donante con una sea_surface_temp similar. ¡Vamos a ver cómo funciona!

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Ver curso

Instrucciones del ejercicio

  • Imputa con hot-deck los valores faltantes de air_temp en los datos tao, ordenando por sea_surface_temp, y asigna el resultado a tao_imp.
  • Crea un margin plot de air_temp frente a sea_surface_temp.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(air_temp, sea_surface_temp, air_temp_imp) %>% 
	___(___ = ___)
Editar y ejecutar código