PCA als Alternative zu nearZeroVar() verwenden
Eine Alternative zum Entfernen von Prädiktoren mit geringer Varianz ist es, PCA auf deinen Datensatz anzuwenden. Das ist manchmal vorzuziehen, weil dabei nicht alle deine Daten verworfen werden: Viele verschiedene Prädiktoren mit geringer Varianz können in einer PCA-Variablen mit hoher Varianz zusammengefasst werden, was sich positiv auf die Genauigkeit deines Modells auswirken kann.
Das ist besonders für lineare Modelle ein guter Trick: Die Option pca im Argument preProcess zentriert und skaliert deine Daten, fasst Variablen mit geringer Varianz zusammen und stellt sicher, dass alle Prädiktoren orthogonal sind. So entsteht ein idealer Datensatz für lineare Regressionsmodelle, der die Genauigkeit deiner Modelle oft verbessern kann.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit caret in R
Anleitung zur Übung
bloodbrain_x und bloodbrain_y sind in deinem Workspace geladen.
- Passe ein
glm-Modell auf den vollständigen Blood-Brain-Datensatz an und verwende dabei die Option"pca"fürpreProcess. - Gib das Modell in der Konsole aus und inspiziere das Ergebnis.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Fit glm model using PCA: model
model <- train(
x = ___,
y = ___,
method = ___,
preProcess = ___
)
# Print model to console