El flujo de mice: mice - with - pool
La imputación múltiple por ecuaciones encadenadas (MICE) nos permite estimar la incertidumbre de la imputación imputando un conjunto de datos varias veces con imputación basada en modelos, extrayendo de distribuciones condicionales. Así, cada conjunto imputado es ligeramente diferente. Después, se realiza un análisis sobre cada uno y los resultados se combinan, obteniendo las cantidades de interés junto con sus intervalos de confianza que reflejan la incertidumbre de la imputación.
En este ejercicio, practicarás el flujo típico de MICE: mice() - with() - pool(). Realizarás un análisis de regresión sobre los datos de biopics para ver qué ocupación del sujeto, sub_type, se asocia con las mayores ganancias de taquilla. ¡Vamos a jugar con mice!
Este ejercicio forma parte del curso
Tratamiento de datos faltantes con imputaciones en R
Instrucciones del ejercicio
- Carga el paquete
micee imputabiopicsconmice()usando 5 imputaciones, y guarda el resultado enbiopics_multiimp. - Ajusta un modelo de regresión lineal que explique
earningsusandoyearysub_typeen cada conjunto imputado, y guarda el resultado enlm_multiimp. - Combina los modelos de regresión guardados en
lm_multiimpconpool(), y guarda el resultado enlm_pooled. - Resume
lm_pooledpara que produzca intervalos de confianza con un nivel de confianza del 95%.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load mice package
___
# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)
# Fit linear regression to each imputed data set
lm_multiimp <- ___(___, ___)
# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)