Evaluar imputaciones: la escala
Aunque la imputación por la media puede no parecer tan mala cuando la comparamos con un diagrama de caja, es importante hacerse una idea de la variación en los datos. Por eso conviene explorar cómo cambian la escala y la dispersión de los valores imputados frente a los datos originales.
Una forma de evaluar si la escala de las imputaciones es adecuada es usar un diagrama de dispersión para comprobar si los valores resultan razonables o no.
Este ejercicio forma parte del curso
Tratamiento de datos faltantes en R
Instrucciones del ejercicio
Usando los datos con valores ya imputados, ocean_imp_mean:
- Explora las imputaciones en la temperatura del aire (en el eje x) y la humedad (en el eje y) usando un diagrama de dispersión, y recuerda usar
color = any_missing. - Amplía esta visualización anterior creando facetas por año.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Explore imputations in air temperature and humidity,
# coloring by the variable, any_missing
ggplot(___,
aes(x = ___, y = ___, color = ___)) +
geom_point()
# Explore imputations in air temperature and humidity,
# coloring by the variable, any_missing, and faceting by year
ggplot(___,
aes(x = ___, y = ___, color = ___)) +
___() +
facet_wrap(~___)