Utiliser la PCA comme alternative à nearZeroVar()

Une alternative à la suppression des prédicteurs à faible variance consiste à exécuter une PCA sur votre jeu de données. Cela est parfois préférable car vous ne jetez pas toutes vos données : plusieurs prédicteurs à faible variance peuvent être combinés en une seule variable de PCA à forte variance, ce qui peut avoir un impact positif sur la précision de votre modèle.

C’est particulièrement utile pour les modèles linéaires : l’option pca de l’argument preProcess centrera et mettra à l’échelle vos données, combinera les variables à faible variance et garantira que tous vos prédicteurs sont orthogonaux. Vous obtenez ainsi un jeu de données idéal pour la régression linéaire, qui peut souvent améliorer la précision de vos modèles.

Cet exercice fait partie du cours

<cours>Machine Learning avec caret en R</cours>

Voir le cours

Instructions de l’exercice

bloodbrain_x et bloodbrain_y sont chargés dans votre espace de travail.

Ajustez un modèle glm sur l’ensemble complet blood-brain en utilisant l’option "pca" dans preProcess.
Affichez le modèle dans la console et examinez le résultat.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Fit glm model using PCA: model
model <- train(
  x = ___, 
  y = ___,
  method = ___, 
  preProcess = ___
)

# Print model to console

Modifier et exécuter le code