ComenzarEmpieza gratis

Imputación con random forests

Un enfoque de Machine Learning para la imputación puede ser más preciso y más fácil de implementar que los modelos estadísticos tradicionales. Para empezar, no requiere que especifiques relaciones entre variables. Además, modelos de Machine Learning como los random forests son capaces de descubrir relaciones muy complejas y no lineales y aprovecharlas para predecir valores ausentes.

En este ejercicio, te familiarizarás con el paquete missForest, que construye un random forest independiente para predecir los valores faltantes de cada variable, una por una. Llamarás a la función de imputación sobre los datos de películas biográficas, biopics, con los que ya has trabajado en el curso, y después extraerás tanto los datos completados como los errores de imputación estimados.

¡Hora de plantar unos random forests!

Este ejercicio forma parte del curso

Tratamiento de datos faltantes con imputaciones en R

Ver curso

Instrucciones del ejercicio

  • Carga el paquete missForest.
  • Usa missForest() para imputar valores ausentes en los datos de biopics; asigna el resultado a imp_res.
  • Extrae el conjunto de datos imputado de imp_res, asígnalo a imp_data y comprueba que el número de valores ausentes sea efectivamente cero.
  • Extrae el error de imputación estimado de imp_res, asígnalo a imp_err e imprímelo en la consola.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the missForest package
___

# Impute biopics data using missForest
imp_res <- ___(___)

# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))

# Extract and print imputation errors
imp_err <- imp_res$___
print(___)
Editar y ejecutar código