Usare la PCA come alternativa a nearZeroVar()

Un'alternativa all'eliminazione dei predittori a bassa varianza è eseguire la PCA sul tuo insieme di dati. A volte è preferibile perché non butta via tutti i dati: molti predittori a bassa varianza diversi possono finire combinati in un'unica variabile PCA ad alta varianza, che potrebbe avere un impatto positivo sull'accuratezza del tuo modello.

Questo è un trucco particolarmente utile per i modelli lineari: l'opzione pca nell'argomento preProcess centrerà e scalerà i tuoi dati, combinerà le variabili a bassa varianza e farà in modo che tutti i predittori siano ortogonali. Questo crea un insieme di dati ideale per la regressione lineare e può spesso migliorare l'accuratezza dei tuoi modelli.

Questo esercizio fa parte del corso

Machine Learning con caret in R

Visualizza corso

Istruzioni dell'esercizio

bloodbrain_x e bloodbrain_y sono già caricati nel tuo workspace.

Allena un modello glm sull'intero insieme di dati blood-brain usando l'opzione "pca" in preProcess.
Stampa il modello in console e osserva il risultato.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Fit glm model using PCA: model
model <- train(
  x = ___, 
  y = ___,
  method = ___, 
  preProcess = ___
)

# Print model to console

Modifica ed esegui il codice