Realizar resúmenes agrupados de valores ausentes

Ahora que puedes crear datos nabulares, vamos a usarlos para explorar los datos. Calcularemos estadísticas resumidas en función de la ausencia de valores en otra variable.

Para ello vamos a seguir estos pasos:

Primero, bind_shadow() convierte los datos en datos nabulares.
Después, realiza algunos resúmenes sobre los datos usando group_by() y summarize() para calcular la media y la desviación estándar, con las funciones mean() y sd().

Este ejercicio forma parte del curso

Tratamiento de datos faltantes en R

Instrucciones del ejercicio

Para el conjunto de datos oceanbuoys:
Aplica bind_shadow(), luego group_by() para la ausencia de valores en humedad (humidity_NA) y calcula las medias y desviaciones estándar del viento este-oeste (wind_ew) usando summarize() de dplyr.
Repite esto, pero calculando los resúmenes para el viento norte-sur (wind_ns).

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# `bind_shadow()` and `group_by()` humidity missingness (`humidity_NA`)
oceanbuoys %>%
  ___() %>%
  group_by(___) %>% 
  summarize(wind_ew_mean = mean(___), # calculate mean of wind_ew
            wind_ew_sd = ___)) # calculate standard deviation of wind_ew
  
# Repeat this, but calculating summaries for wind north south (`wind_ns`).
___ %>%
  ___ %>%
  group_by(___) %>%
  summarize(___ = ___(___),
            ___ = ___(___))

Editar y ejecutar código

Este ejercicio forma parte del curso

Tratamiento de datos faltantes en R

PrincipianteNivel de habilidad

4.8+

Empieza el curso gratis

El capítulo 1 te presenta los datos faltantes: qué son, cómo se comportan en R, cómo detectarlos y cómo contarlos. Después, introducimos los resúmenes de datos faltantes y cómo resumir la ausencia por casos y variables, además de cómo explorarla por grupos dentro de los datos. Por último, tratamos las visualizaciones de datos faltantes: cómo producir vistas generales para todo el conjunto de datos y por variables, casos y otros resúmenes, y cómo explorar estas vistas por grupos.

Exercise 1: Introducción a los datos faltantes Exercise 2: Usar y detectar valores ausentes Exercise 3: ¿Cuántos valores faltantes hay?Exercise 4: Trabajar con valores ausentes Exercise 5: ¿Por qué deberían importarte los valores faltantes?Exercise 6: Resumir la ausencia de datos Exercise 7: Tabulación de valores ausentes Exercise 8: Otras formas de resumir la ausencia de datos Exercise 9: ¿Cómo visualizamos los valores faltantes?Exercise 10: Tus primeras visualizaciones de datos faltantes Exercise 11: Visualizar casos y variables con valores ausentes Exercise 12: Visualizar patrones de ausencia

En el capítulo dos, aprenderás a descubrir valores faltantes ocultos como "missing" o "N/A" y a reemplazarlos por `NA`. Aprenderás a gestionar de forma eficiente los valores faltantes implícitos, es decir, aquellos que se sobreentienden como ausentes pero no aparecen listados explícitamente. También veremos cómo explorar la dependencia de los datos faltantes, comentando Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR) y qué implican para tu análisis de datos.

Exercise 1: Buscar y reemplazar valores faltantes Exercise 2: Usar miss_scan_count Exercise 3: Usar replace_with_na Exercise 4: Usar las variantes con ámbito de replace_with_na Exercise 5: Rellenar valores faltantes hacia abajo Exercise 6: Corrige los valores implícitos con complete()Exercise 7: Corrige ausencias explícitas con fill()Exercise 8: Usar complete() y fill() juntos Exercise 9: Dependencia de los datos faltantes Exercise 10: Diferencias entre MCAR y MAR Exercise 11: Explorar la dependencia de los valores perdidos Exercise 12: Explorar más la dependencia de los valores ausentes

En este capítulo, aprenderás flujos de trabajo para trabajar con datos faltantes. Presentamos estructuras de datos especiales, la matriz sombra y los datos nabular, y mostramos cómo usarlas en flujos de trabajo para explorar datos faltantes de modo que puedas vincular los resúmenes de ausencia con los valores de los datos. Aprenderás a usar ggplot para explorar y visualizar cómo cambian los valores cuando otras variables pasan a estar ausentes. Por último, aprenderás a visualizar la ausencia en dos variables y cómo y por qué visualizar ausencias en un diagrama de dispersión.

Exercise 1: Herramientas para explorar la dependencia de los datos faltantes Exercise 2: Creación de datos de matriz sombra Exercise 3: Realizar resúmenes agrupados de valores ausentes

Ejercicio actual

Exercise 4: Explorar más combinaciones de valores perdidos Exercise 5: Visualizar la ausencia de datos en una variable Exercise 6: Datos nabular y rellenado según ausencia Exercise 7: Datos nabulares y resumen por ausencia Exercise 8: Explora la variación por ausencia de datos: diagramas de caja Exercise 9: Visualizar la ausencia de datos en dos variables Exercise 10: Explora los datos ausentes con diagramas de dispersión Exercise 11: Usar facetas para explorar la ausencia de datos Exercise 12: Facetado para explorar ausencias (gráficos múltiples)

En este capítulo, aprenderás a rellenar los valores faltantes de tus datos, lo que se denomina imputación. Aprenderás a imputar y a seguir la pista a los valores faltantes, y cuáles son las características buenas y malas de las imputaciones para que puedas explorar, visualizar y evaluar los datos imputados frente a los valores originales. Aprenderás a usar, evaluar y comparar distintos modelos de imputación, y explorar cómo distintos modelos de imputación afectan a las inferencias que puedes extraer de los modelos.

Exercise 1: Rellenar los huecos Exercise 2: Imputa datos por debajo del rango con datos nabular Exercise 3: Visualiza los valores imputados en un diagrama de dispersión Exercise 4: Crea un histograma de los datos imputados Exercise 5: Qué hace que una imputación sea buena Exercise 6: Evaluar imputaciones deficientes Exercise 7: Evaluar imputaciones: la escala Exercise 8: Evaluar imputaciones: en muchas variables Exercise 9: Realizar imputaciones Exercise 10: Usar simputation para imputar datos Exercise 11: Evaluar y comparar imputaciones Exercise 12: Evaluar imputaciones (varios modelos y variables)Exercise 13: Evaluar imputaciones y modelos Exercise 14: Combinar y comparar varios modelos de imputación Exercise 15: Evaluar los distintos parámetros del modelo Exercise 16: Lección final