Importance des variables
Vous savez déjà que les arbres ensachés (bagging) sont un modèle d’ensemble qui corrige le problème de variance des arbres de décision. Vous avez maintenant appris que l’algorithme de random forest va plus loin en n’utilisant qu’un sous-ensemble aléatoire de variables à chaque arbre. Cela décorrèle davantage l’ensemble et améliore ses performances prédictives.
Dans cet exercice, vous allez construire vous-même une random forest et tracer l’importance des prédicteurs avec le package vip. Les données d’entraînement, customers_train, sont préchargées dans votre espace de travail.
Cet exercice fait partie du cours
Machine Learning avec des modèles à base d’arbres en R
Instructions
- Créez
spec, la spécification d’un modèle de classification en random forest en utilisant le moteur"ranger"et l’importance des variables"impurity". - Créez
modelen ajustant le tibblecustomers_trainàspecavecstill_customercomme variable cible et toutes les autres colonnes comme variables prédictives. - Tracez l’importance des variables avec la fonction
vip()du packagevip(qui n’est pas préchargé).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Specify a random forest
spec <- ___ %>%
set_mode("classification") %>%
set_engine(___, importance = ___)
# Train the forest
model <- spec %>%
fit(___,
___)
# Plot the variable importance
vip::___(model)