Usar PCA como alternativa a nearZeroVar()
Una alternativa a eliminar predictores de baja varianza es ejecutar PCA sobre tu conjunto de datos. A veces es preferible porque no descartas toda la información: muchos predictores distintos de baja varianza pueden acabar combinándose en una sola variable de PCA con alta varianza, lo que podría mejorar la precisión de tu modelo.
Este truco funciona especialmente bien con modelos lineales: la opción pca en el argumento preProcess centrará y escalará tus datos, combinará variables de baja varianza y se asegurará de que todos tus predictores sean ortogonales. Esto crea un conjunto de datos ideal para el modelado de regresión lineal y, a menudo, puede mejorar la precisión de tus modelos.
Este ejercicio forma parte del curso
Machine Learning con caret en R
Instrucciones del ejercicio
bloodbrain_x y bloodbrain_y están cargados en tu espacio de trabajo.
- Ajusta un modelo
glmal conjunto completo de datos de blood-brain usando la opción"pca"enpreProcess. - Imprime el modelo en la consola e inspecciona el resultado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Fit glm model using PCA: model
model <- train(
x = ___,
y = ___,
method = ___,
preProcess = ___
)
# Print model to console