Empaquetar la imputación y el modelado en una función
Siempre que hagas análisis o modelado con datos imputados, debes tener en cuenta la incertidumbre de la imputación. Ejecutar un modelo sobre un conjunto de datos imputado una sola vez ignora que la imputación estima los valores faltantes con incertidumbre. Los errores estándar de ese tipo de modelo tienden a ser demasiado pequeños. La solución es la imputación múltiple, y una forma de ponerla en práctica es mediante bootstrapping.
En los próximos ejercicios trabajarás con los ya conocidos datos de biopics. El objetivo es usar imputación múltiple mediante bootstrapping y regresión lineal para ver si, con los datos disponibles, las películas biográficas protagonizadas por mujeres recaudan menos que las sobre hombres.
Empecemos escribiendo una función que cree una muestra bootstrap, la impute y ajuste un modelo de regresión lineal.
Este ejercicio forma parte del curso
Tratamiento de datos faltantes con imputaciones en R
Instrucciones del ejercicio
- Haz un corte de
datapara re-muestrear las filas indicadas porindicesy asigna el resultado adata_boot. - Imputa la muestra bootstrap
data_bootcon imputación kNN usando 5 vecinos y asigna el resultado adata_imp. - Ajusta un modelo de regresión lineal a
data_impque expliqueearningsconsub_sex,sub_typeyyear.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
calc_gender_coef <- function(data, indices) {
# Get bootstrap sample
data_boot <- data[___, ]
# Impute with kNN imputation
data_imp <- ___
# Fit linear regression
linear_model <- ___
# Extract and return gender coefficient
gender_coefficient <- coef(linear_model)[2]
return(gender_coefficient)
}