ComenzarEmpieza gratis

Usar simputation para imputar datos

En R hay muchos paquetes para imputación. Vamos a centrarnos en el paquete simputation, que ofrece una interfaz sencilla y potente para realizar imputaciones.

Construir un buen modelo de imputación es muy importante, pero también es un tema complejo: requiere tanto cuidado como construir un buen modelo estadístico. En este curso, vamos a centrarnos en cómo evaluar imputaciones.

Primero, veremos la función impute_lm(), que imputa valores según un modelo lineal especificado.

En este ejercicio, aplicaremos las técnicas de evaluación anteriores a datos con impute_lm() y, después, ampliaremos este método de imputación en las siguientes lecciones.

Este ejercicio forma parte del curso

Tratamiento de datos faltantes en R

Ver curso

Instrucciones del ejercicio

Usando el conjunto de datos oceanbuoys:

  • Imputa humidity usando wind_ew y wind_ns, y registra los valores faltantes con add_label_shadow().
  • Representa los valores imputados de air_temp_c y humidity, colocándolos en los ejes x e y, respectivamente, y coloreando por any_missing().

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>% 
    bind_shadow() %>%
    impute_lm(air_temp_c ~ wind_ew + wind_ns) %>% 
    impute_lm(___ ~ ___ + ___) %>%
    add_label_shadow()
    
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___, 
       aes(x = ___, y = ___, color = any_missing)) + 
  geom_point()
Editar y ejecutar código