Passer au crible l’importance des variables
Le jeu de données attrition contient 839 observations et 30 prédicteurs pour « Attrition ». Vous souhaitez examiner le compromis entre la performance d’un modèle qui utilise tous les prédicteurs disponibles et celle d’un modèle réduit basé sur quelques variables informatives.
Dans cet exercice, vous allez ajuster un modèle et consulter l’importance des variables de ce modèle ajusté. Dans l’exercice suivant, vous évaluerez la performance de ce modèle par rapport à un modèle réduit.
Les partitions train et test et le package vip() sont disponibles dans votre environnement, ainsi qu’un modèle de régression logistique model déjà déclaré.
Cet exercice fait partie du cours
Feature engineering en R
Instructions
- Créez une recipe qui modélise
Attritionà l’aide de tous les prédicteurs. - Ajustez le workflow sur les données d’entraînement.
- Utilisez l’objet
fit_fullpour représenter graphiquement l’importance des variables de votre modèle. - Appliquez la fonction
extract_fit_parsnip()avantvip()pour lui fournir les informations nécessaires.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a recipe that models Attrition using all the predictors
recipe_full <- ___(___, data = train)
workflow_full <- workflow() %>%
add_model(model) %>%
add_recipe(recipe_full)
# Fit the workflow to the training data
fit_full <- ___ %>%
___(data = train)
# Use the fit_full object to graph the variable importance of your model. Apply extract_fit_parsnip() function before vip()
fit_full %>% ___() %>%
___(aesthetics = list(fill = "steelblue"))