Usar simputation para imputar datos
En R hay muchos paquetes para imputación. Vamos a centrarnos en el paquete simputation, que ofrece una interfaz sencilla y potente para realizar imputaciones.
Construir un buen modelo de imputación es muy importante, pero también es un tema complejo: requiere tanto cuidado como construir un buen modelo estadístico. En este curso, vamos a centrarnos en cómo evaluar imputaciones.
Primero, veremos la función impute_lm(), que imputa valores según un modelo lineal especificado.
En este ejercicio, aplicaremos las técnicas de evaluación anteriores a datos con impute_lm() y, después, ampliaremos este método de imputación en las siguientes lecciones.
Este ejercicio forma parte del curso
Tratamiento de datos faltantes en R
Instrucciones del ejercicio
Usando el conjunto de datos oceanbuoys:
- Imputa
humidityusandowind_ewywind_ns, y registra los valores faltantes conadd_label_shadow(). - Representa los valores imputados de
air_temp_cyhumidity, colocándolos en los ejes x e y, respectivamente, y coloreando porany_missing().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>%
bind_shadow() %>%
impute_lm(air_temp_c ~ wind_ew + wind_ns) %>%
impute_lm(___ ~ ___ + ___) %>%
add_label_shadow()
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___,
aes(x = ___, y = ___, color = any_missing)) +
geom_point()