Créer un modèle random forest complet

Les modèles de random forest effectuent naturellement une sélection de variables en construisant de nombreux sous-arbres à partir de sous-ensembles aléatoires de caractéristiques. Une façon d’évaluer l’importance des variables est de construire un modèle puis d’extraire ces importances. Dans cet exercice, vous allez utiliser les données Healthcare Job Attrition pour entraîner un modèle de classification rand_forest() à partir duquel vous pourrez extraire les importances de variables. Pour rendre les importances disponibles, veillez à créer le modèle avec importance = "impurity". Les jeux train et test sont à votre disposition.

Les packages tidyverse, tidymodels et vip ont été chargés pour vous.

Cet exercice fait partie du cours

<cours>Réduction de dimension en R</cours>

Voir le cours

Instructions de l’exercice

Définissez un modèle de random forest pour la classification avec 200 arbres, qui permette d’extraire les importances de variables.
Ajustez le modèle de random forest avec tous les prédicteurs.
Joignez les prédictions au jeu de test.
Calculez la métrique F1.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Specify the random forest model
rf_spec <- ___(mode = "___", ___ = ___) %>% 
  set_engine("___", ___ = "___") 

# Fit the random forest model with all predictors
rf_fit <- ___ %>% 
  ___(___, data = ___)

# Create the test set prediction data frame
predict_df <- ___ %>% 
  bind_cols(predict = ___(___, ___))

# Calculate F1 performance
f_meas(predict_df, ___, .pred_class)

Modifier et exécuter le code