PCA gebruiken als alternatief voor nearZeroVar()
Een alternatief voor het verwijderen van predictoren met lage variantie is het toepassen van PCA op je gegevensset. Dat is soms beter, omdat je dan niet al je gegevens weggooit: meerdere predictoren met lage variantie kunnen samenkomen in één PCA-variabele met hoge variantie, wat een positief effect kan hebben op de nauwkeurigheid van je model.
Dit is zeker een goede truc voor lineaire modellen: de optie pca in het preProcess-argument centreert en schaalt je data, combineert variabelen met lage variantie en zorgt ervoor dat al je predictoren orthogonaal zijn. Dit levert een ideale gegevensset op voor lineaire regressiemodellen en kan vaak de nauwkeurigheid van je modellen verbeteren.
Deze oefening maakt deel uit van de cursus
Machine Learning met caret in R
Oefeninstructies
bloodbrain_x en bloodbrain_y zijn geladen in je werkruimte.
- Pas een
glm-model toe op de volledige blood-brain-gegevensset met de"pca"-optie inpreProcess. - Print het model naar de console en bekijk het resultaat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit glm model using PCA: model
model <- train(
x = ___,
y = ___,
method = ___,
preProcess = ___
)
# Print model to console