Evaluar imputaciones (varios modelos y variables)

Cuando crees un modelo de imputación, es buena idea compararlo con otro método.

En esta lección, te pediremos que añadas un último modelo de imputación que incluya una pieza adicional de información útil que ayuda a explicar parte de la variación en los datos. Después compararás los valores, como hiciste en la lección anterior.

Este ejercicio forma parte del curso

Tratamiento de datos faltantes en R

Instrucciones del ejercicio

Usando el conjunto de datos oceanbuoys:

Imputa los datos con impute_lm(), añadiendo year al modelo.
Une los métodos de imputación, colocando ocean_imp_mean en mean, ocean_imp_lm_wind en lm_wind y ocean_imp_lm_wind_year en lm_wind_year.
Examina los valores de air_temp_c (en el eje x) y humidity (en el eje y), coloreando según si hay valores ausentes, y creando facetas por modelo de imputación.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Build a model adding year to the outcome
ocean_imp_lm_wind_year <- bind_shadow(___) %>%
  impute_lm(air_temp_c ~ wind_ew + wind_ns + ___) %>%
  impute_lm(humidity ~ wind_ew + wind_ns + ___) %>%
  add_label_shadow()

# Bind the mean, lm_wind, and lm_wind_year models together
bound_models <- bind_rows(mean = ocean_imp_mean,
                          lm_wind = ocean_imp_lm_wind,
                          lm_wind_year = ___,
                          .id = "imp_model")

# Explore air_temp and humidity, coloring by any missings, and faceting by imputation model
ggplot(___, aes(x = ___, y = ___, color = any_missing)) + 
  geom_point() + facet_wrap(~___)

Editar y ejecutar código

Este ejercicio forma parte del curso

Tratamiento de datos faltantes en R

PrincipianteNivel de habilidad

4.8+

Comienza el curso gratis

El capítulo 1 te presenta los datos faltantes: qué son, cómo se comportan en R, cómo detectarlos y cómo contarlos. Después, introducimos los resúmenes de datos faltantes y cómo resumir la ausencia por casos y variables, además de cómo explorarla por grupos dentro de los datos. Por último, tratamos las visualizaciones de datos faltantes: cómo producir vistas generales para todo el conjunto de datos y por variables, casos y otros resúmenes, y cómo explorar estas vistas por grupos.

Exercise 1: Introducción a los datos faltantes Exercise 2: Usar y detectar valores ausentes Exercise 3: ¿Cuántos valores faltantes hay?Exercise 4: Trabajar con valores ausentes Exercise 5: ¿Por qué deberían importarte los valores faltantes?Exercise 6: Resumir la ausencia de datos Exercise 7: Tabulación de valores ausentes Exercise 8: Otras formas de resumir la ausencia de datos Exercise 9: ¿Cómo visualizamos los valores faltantes?Exercise 10: Tus primeras visualizaciones de datos faltantes Exercise 11: Visualizar casos y variables con valores ausentes Exercise 12: Visualizar patrones de ausencia

En el capítulo dos, aprenderás a descubrir valores faltantes ocultos como "missing" o "N/A" y a reemplazarlos por `NA`. Aprenderás a gestionar de forma eficiente los valores faltantes implícitos, es decir, aquellos que se sobreentienden como ausentes pero no aparecen listados explícitamente. También veremos cómo explorar la dependencia de los datos faltantes, comentando Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR) y qué implican para tu análisis de datos.

Exercise 1: Buscar y reemplazar valores faltantes Exercise 2: Usar miss_scan_count Exercise 3: Usar replace_with_na Exercise 4: Usar las variantes con ámbito de replace_with_na Exercise 5: Rellenar valores faltantes hacia abajo Exercise 6: Corrige los valores implícitos con complete()Exercise 7: Corrige ausencias explícitas con fill()Exercise 8: Usar complete() y fill() juntos Exercise 9: Dependencia de los datos faltantes Exercise 10: Diferencias entre MCAR y MAR Exercise 11: Explorar la dependencia de los valores perdidos Exercise 12: Explorar más la dependencia de los valores ausentes

En este capítulo, aprenderás flujos de trabajo para trabajar con datos faltantes. Presentamos estructuras de datos especiales, la matriz sombra y los datos nabular, y mostramos cómo usarlas en flujos de trabajo para explorar datos faltantes de modo que puedas vincular los resúmenes de ausencia con los valores de los datos. Aprenderás a usar ggplot para explorar y visualizar cómo cambian los valores cuando otras variables pasan a estar ausentes. Por último, aprenderás a visualizar la ausencia en dos variables y cómo y por qué visualizar ausencias en un diagrama de dispersión.

Exercise 1: Herramientas para explorar la dependencia de los datos faltantes Exercise 2: Creación de datos de matriz sombra Exercise 3: Realizar resúmenes agrupados de valores ausentes Exercise 4: Explorar más combinaciones de valores perdidos Exercise 5: Visualizar la ausencia de datos en una variable Exercise 6: Datos nabular y rellenado según ausencia Exercise 7: Datos nabulares y resumen por ausencia Exercise 8: Explora la variación por ausencia de datos: diagramas de caja Exercise 9: Visualizar la ausencia de datos en dos variables Exercise 10: Explora los datos ausentes con diagramas de dispersión Exercise 11: Usar facetas para explorar la ausencia de datos Exercise 12: Facetado para explorar ausencias (gráficos múltiples)

En este capítulo, aprenderás a rellenar los valores faltantes de tus datos, lo que se denomina imputación. Aprenderás a imputar y a seguir la pista a los valores faltantes, y cuáles son las características buenas y malas de las imputaciones para que puedas explorar, visualizar y evaluar los datos imputados frente a los valores originales. Aprenderás a usar, evaluar y comparar distintos modelos de imputación, y explorar cómo distintos modelos de imputación afectan a las inferencias que puedes extraer de los modelos.

Exercise 1: Rellenar los huecos Exercise 2: Imputa datos por debajo del rango con datos nabular Exercise 3: Visualiza los valores imputados en un diagrama de dispersión Exercise 4: Crea un histograma de los datos imputados Exercise 5: Qué hace que una imputación sea buena Exercise 6: Evaluar imputaciones deficientes Exercise 7: Evaluar imputaciones: la escala Exercise 8: Evaluar imputaciones: en muchas variables Exercise 9: Realizar imputaciones Exercise 10: Usar simputation para imputar datos Exercise 11: Evaluar y comparar imputaciones Exercise 12: Evaluar imputaciones (varios modelos y variables)

Ejercicio actual

Exercise 13: Evaluar imputaciones y modelos Exercise 14: Combinar y comparar varios modelos de imputación Exercise 15: Evaluar los distintos parámetros del modelo Exercise 16: Lección final