Usar PCA como alternativa a nearZeroVar()

Una alternativa a eliminar predictores de baja varianza es ejecutar PCA sobre tu conjunto de datos. A veces es preferible porque no descartas toda la información: muchos predictores distintos de baja varianza pueden acabar combinándose en una sola variable de PCA con alta varianza, lo que podría mejorar la precisión de tu modelo.

Este truco funciona especialmente bien con modelos lineales: la opción pca en el argumento preProcess centrará y escalará tus datos, combinará variables de baja varianza y se asegurará de que todos tus predictores sean ortogonales. Esto crea un conjunto de datos ideal para el modelado de regresión lineal y, a menudo, puede mejorar la precisión de tus modelos.

Este ejercicio forma parte del curso

Machine Learning con caret en R

Ver curso

Instrucciones del ejercicio

bloodbrain_x y bloodbrain_y están cargados en tu espacio de trabajo.

Ajusta un modelo glm al conjunto completo de datos de blood-brain usando la opción "pca" en preProcess.
Imprime el modelo en la consola e inspecciona el resultado.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Fit glm model using PCA: model
model <- train(
  x = ___, 
  y = ___,
  method = ___, 
  preProcess = ___
)

# Print model to console

Editar y ejecutar código