ComenzarEmpieza gratis

Empaquetar la imputación y el modelado en una función

Siempre que hagas análisis o modelado con datos imputados, debes tener en cuenta la incertidumbre de la imputación. Ejecutar un modelo sobre un conjunto de datos imputado una sola vez ignora que la imputación estima los valores faltantes con incertidumbre. Los errores estándar de ese tipo de modelo tienden a ser demasiado pequeños. La solución es la imputación múltiple, y una forma de ponerla en práctica es mediante bootstrapping.

En los próximos ejercicios trabajarás con los ya conocidos datos de biopics. El objetivo es usar imputación múltiple mediante bootstrapping y regresión lineal para ver si, con los datos disponibles, las películas biográficas protagonizadas por mujeres recaudan menos que las sobre hombres.

Empecemos escribiendo una función que cree una muestra bootstrap, la impute y ajuste un modelo de regresión lineal.

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Ver curso

Instrucciones del ejercicio

  • Haz un corte de data para re-muestrear las filas indicadas por indices y asigna el resultado a data_boot.
  • Imputa la muestra bootstrap data_boot con imputación kNN usando 5 vecinos y asigna el resultado a data_imp.
  • Ajusta un modelo de regresión lineal a data_imp que explique earnings con sub_sex, sub_type y year.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

calc_gender_coef <- function(data, indices) {
  # Get bootstrap sample
  data_boot <- data[___, ]
  # Impute with kNN imputation
  data_imp <- ___
  # Fit linear regression
  linear_model <- ___
  # Extract and return gender coefficient
  gender_coefficient <- coef(linear_model)[2]
  return(gender_coefficient)
}
Editar y ejecutar código