Usare la PCA come alternativa a nearZeroVar()
Un'alternativa all'eliminazione dei predittori a bassa varianza è eseguire la PCA sul tuo insieme di dati. A volte è preferibile perché non butta via tutti i dati: molti predittori a bassa varianza diversi possono finire combinati in un'unica variabile PCA ad alta varianza, che potrebbe avere un impatto positivo sull'accuratezza del tuo modello.
Questo è un trucco particolarmente utile per i modelli lineari: l'opzione pca nell'argomento preProcess centrerà e scalerà i tuoi dati, combinerà le variabili a bassa varianza e farà in modo che tutti i predittori siano ortogonali. Questo crea un insieme di dati ideale per la regressione lineare e può spesso migliorare l'accuratezza dei tuoi modelli.
Questo esercizio fa parte del corso
Machine Learning con caret in R
Istruzioni dell'esercizio
bloodbrain_x e bloodbrain_y sono già caricati nel tuo workspace.
- Allena un modello
glmsull'intero insieme di dati blood-brain usando l'opzione"pca"inpreProcess. - Stampa il modello in console e osserva il risultato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Fit glm model using PCA: model
model <- train(
x = ___,
y = ___,
method = ___,
preProcess = ___
)
# Print model to console