Extraer de la distribución condicional

Si llamas a predict() sobre un modelo, siempre obtendrás el mismo valor para los mismos predictores. Esto produce poca variabilidad en los datos imputados. Para aumentarla, de modo que la imputación replique la variabilidad de los datos originales, podemos extraer de la distribución condicional. Esto significa que, en lugar de predecir siempre 1 cuando el modelo devuelve una probabilidad mayor que 0.5, podemos obtener la predicción de una distribución binomial descrita por la probabilidad que devuelve el modelo.

Vas a trabajar sobre el código que escribiste en el ejercicio anterior. Se eliminó la siguiente línea:

  preds <- ifelse(preds >= 0.5, 1, 0)

Tu tarea es reemplazarla extrayendo de una distribución binomial. ¡Es solo una línea de código!

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Instrucciones del ejercicio

Sobrescribe preds muestreando de una distribución binomial.
Pasa la longitud de preds como primer argumento.
Establece size en 1.
Define prob como las probabilidades devueltas por el modelo.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

 impute_logreg <- function(df, formula) {
  # Extract name of response variable
  imp_var <- as.character(formula[2])
  # Save locations where the response is missing
  missing_imp_var <- is.na(df[imp_var])
  # Fit logistic regression mode
  logreg_model <- glm(formula, data = df, family = binomial)
  # Predict the response
  preds <- predict(logreg_model, type = "response")
  # Sample the predictions from binomial distribution
  preds <- ___(___, size = ___, prob = ___)
  # Impute missing values with predictions
  df[missing_imp_var, imp_var] <- preds[missing_imp_var]
  return(df)
}

Editar y ejecutar código

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

AvanzadoNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo descubrirás por qué los datos faltantes pueden suponer un riesgo al analizar un conjunto de datos. Se te presentarán los tres mecanismos de datos faltantes y aprenderás a reconocerlos usando pruebas estadísticas y herramientas de visualización.

Exercise 1: Datos ausentes: qué puede salir mal Exercise 2: Regresión lineal con datos incompletos Exercise 3: Analizar la salida de una regresión Exercise 4: Comparar modelos Exercise 5: Mecanismos de datos faltantes Exercise 6: Reconocer los mecanismos de datos faltantes Exercise 7: t-test para MAR: preparación de datos Exercise 8: t-test para MAR: interpretación Exercise 9: Visualizar patrones de datos faltantes Exercise 10: Gráfico de agregación Exercise 11: Gráfico de columna vertebral (spine plot)Exercise 12: Gráfico mosaic

Conoce la taxonomía de los métodos de imputación y aprende tres técnicas basadas en donantes: imputación por media, hot-deck y k-Nearest-Neighbors. Verás cómo funcionan por dentro antes de aprender a aplicarlas a un conjunto de datos reales de clima tropical. Por el camino, también conocerás trucos útiles que podrás usar para que funcionen aún mejor en tus problemas.

Exercise 1: Imputación por la media Exercise 2: Percibiendo el peligro de la imputación por la media Exercise 3: Imputar la temperatura con la media Exercise 4: Evaluar la calidad de la imputación con un margin plot Exercise 5: Imputación hot-deck Exercise 6: Hot-deck básico Exercise 7: Trucos y consejos de hot-deck I: imputación por dominios Exercise 8: Trucos y consejos de hot-deck II: ordenar por variables correlacionadas Exercise 9: Imputación por k-Nearest-Neighbors Exercise 10: Elegir el número de vecinos Exercise 11: Trucos y consejos de kNN I: ponderar donantes Exercise 12: Trucos y consejos de kNN II: ordenar variables

Es hora de aprender a usar modelos estadísticos y de Machine Learning, como la regresión lineal, la regresión logística y los random forests, para imputar datos faltantes. En este capítulo, verás cómo los modelos hacen sus predicciones y usarás ese conocimiento para extraer los valores imputados de distribuciones condicionales. Esto es importante porque asegura que tus imputaciones sean más variadas y plausibles, haciéndolas más similares a los datos reales.

Exercise 1: Enfoque de imputación basado en modelos Exercise 2: Imputación con regresión lineal Exercise 3: Inicializar valores ausentes e iterar sobre variables Exercise 4: Detecting convergence Exercise 5: Replicar la variabilidad de los datos Exercise 6: Imputación con regresión logística Exercise 7: Extraer de la distribución condicional

Ejercicio actual

Exercise 8: Imputación basada en modelos con múltiples tipos de variables Exercise 9: Imputación basada en árboles Exercise 10: Imputación con random forests Exercise 11: Errores de imputación por variable Exercise 12: Equilibrio entre velocidad y precisión

Los valores imputados no están grabados en piedra. Son estimaciones, y las estimaciones conllevan incertidumbre. En este capítulo final, descubrirás cómo el bootstrapping y las ecuaciones encadenadas usando el paquete mice pueden incorporar la incertidumbre de la imputación en tus modelos y análisis para hacerlos más fiables y robustos.

Exercise 1: Imputación múltiple mediante bootstrapping Exercise 2: Empaquetar la imputación y el modelado en una función Exercise 3: Ejecutar el bootstrap Exercise 4: Intervalos de confianza con bootstrapping Exercise 5: Imputación múltiple mediante ecuaciones encadenadas Exercise 6: El flujo de mice: mice - with - pool Exercise 7: Elegir modelos predeterminados Exercise 8: Uso de la matriz de predictores Exercise 9: Poniéndolo todo en práctica Exercise 10: Analizando patrones de datos faltantes Exercise 11: Imputación e inspección de resultados Exercise 12: Inferencia con datos imputados Exercise 13: Comentarios finales