CommencerCommencer gratuitement

Importance des variables

Vous savez déjà que les arbres ensachés (bagging) sont un modèle d’ensemble qui corrige le problème de variance des arbres de décision. Vous avez maintenant appris que l’algorithme de random forest va plus loin en n’utilisant qu’un sous-ensemble aléatoire de variables à chaque arbre. Cela décorrèle davantage l’ensemble et améliore ses performances prédictives.

Dans cet exercice, vous allez construire vous-même une random forest et tracer l’importance des prédicteurs avec le package vip. Les données d’entraînement, customers_train, sont préchargées dans votre espace de travail.

Cet exercice fait partie du cours

Machine Learning avec des modèles à base d’arbres en R

Afficher le cours

Instructions

  • Créez spec, la spécification d’un modèle de classification en random forest en utilisant le moteur "ranger" et l’importance des variables "impurity".
  • Créez model en ajustant le tibble customers_train à spec avec still_customer comme variable cible et toutes les autres colonnes comme variables prédictives.
  • Tracez l’importance des variables avec la fonction vip() du package vip (qui n’est pas préchargé).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Specify a random forest
spec <- ___ %>%
	set_mode("classification") %>%
    set_engine(___, importance = ___)

# Train the forest
model <- spec %>%
    fit(___,
        ___)

# Plot the variable importance
vip::___(model)
Modifier et exécuter le code