Trucos y consejos de hot-deck I: imputación por dominios
Un truco que puede ayudar cuando la imputación hot-deck rompe las relaciones entre variables es imputar por dominios. Esto significa que, si la variable a imputar está correlacionada con otra variable categórica, puedes ejecutar hot-deck por separado para cada una de sus categorías.
Por ejemplo, podrías esperar que la temperatura del aire dependa del tiempo, ya que estamos viendo subir las temperaturas medias por el calentamiento global. El indicador temporal disponible en los datos tao es una variable categórica, year. Primero, comprueba si la temperatura media del aire es diferente en cada uno de los dos años estudiados y luego ejecuta hot-deck dentro de los dominios definidos por year. Por último, dibuja de nuevo el diagrama de márgenes para evaluar el rendimiento de la imputación.
Este ejercicio forma parte del curso
Tratamiento de datos faltantes con imputaciones en R
Instrucciones del ejercicio
- Calcula la media de
air_temppara cada año, llamando al resultadoaverage_air_tempy excluyendo losNAdel cálculo de la media. - Imputa los valores faltantes de
air_tempen los datostaodentro de los dominios deyearusando imputación hot-deck y asigna el resultado atao_imp. - Crea un diagrama de márgenes de
air_tempfrente asea_surface_temp; recuerda incluirair_temp_impentre las variables que pasas a la función de dibujo.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Calculate mean air_temp per year
tao %>%
group_by(___) %>%
summarize(average_air_temp = mean(___, na.rm = ___))
# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
marginplot(___ = ___)