ComenzarEmpieza gratis

Trucos y consejos de hot-deck I: imputación por dominios

Un truco que puede ayudar cuando la imputación hot-deck rompe las relaciones entre variables es imputar por dominios. Esto significa que, si la variable a imputar está correlacionada con otra variable categórica, puedes ejecutar hot-deck por separado para cada una de sus categorías.

Por ejemplo, podrías esperar que la temperatura del aire dependa del tiempo, ya que estamos viendo subir las temperaturas medias por el calentamiento global. El indicador temporal disponible en los datos tao es una variable categórica, year. Primero, comprueba si la temperatura media del aire es diferente en cada uno de los dos años estudiados y luego ejecuta hot-deck dentro de los dominios definidos por year. Por último, dibuja de nuevo el diagrama de márgenes para evaluar el rendimiento de la imputación.

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Ver curso

Instrucciones del ejercicio

  • Calcula la media de air_temp para cada año, llamando al resultado average_air_temp y excluyendo los NA del cálculo de la media.
  • Imputa los valores faltantes de air_temp en los datos tao dentro de los dominios de year usando imputación hot-deck y asigna el resultado a tao_imp.
  • Crea un diagrama de márgenes de air_temp frente a sea_surface_temp; recuerda incluir air_temp_imp entre las variables que pasas a la función de dibujo.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Calculate mean air_temp per year
tao %>% 
	group_by(___) %>% 
	summarize(average_air_temp = mean(___, na.rm = ___))

# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(___, ___, ___) %>% 
	marginplot(___ = ___)
Editar y ejecutar código