Passer au crible l’importance des variables

Le jeu de données attrition contient 839 observations et 30 prédicteurs pour « Attrition ». Vous souhaitez examiner le compromis entre la performance d’un modèle qui utilise tous les prédicteurs disponibles et celle d’un modèle réduit basé sur quelques variables informatives.

Dans cet exercice, vous allez ajuster un modèle et consulter l’importance des variables de ce modèle ajusté. Dans l’exercice suivant, vous évaluerez la performance de ce modèle par rapport à un modèle réduit.

Les partitions train et test et le package vip() sont disponibles dans votre environnement, ainsi qu’un modèle de régression logistique model déjà déclaré.

Cet exercice fait partie du cours

<cours>Feature engineering en R</cours>

Instructions de l’exercice

Créez une recipe qui modélise Attrition à l’aide de tous les prédicteurs.
Ajustez le workflow sur les données d’entraînement.
Utilisez l’objet fit_full pour représenter graphiquement l’importance des variables de votre modèle.
Appliquez la fonction extract_fit_parsnip() avant vip() pour lui fournir les informations nécessaires.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a recipe that models Attrition using all the predictors
recipe_full <- ___(___, data = train)

workflow_full <- workflow() %>%
  add_model(model) %>%
  add_recipe(recipe_full)

# Fit the workflow to the training data
fit_full <- ___ %>%
  ___(data = train)

# Use the fit_full object to graph the variable importance of your model. Apply extract_fit_parsnip() function before vip()
fit_full %>% ___() %>%
  ___(aesthetics = list(fill = "steelblue"))

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Feature engineering en R</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Les données brutes ne se présentent pas toujours sous la forme la plus adaptée à l’analyse. Dans ce premier chapitre, vous verrez comment transformer et créer des variables qui améliorent les performances et l’interprétabilité de votre modèle.

Exercise 1: Qu’est-ce que le feature engineering ?Exercise 2: Un modèle exploratoire Exercise 3: Concevoir manuellement une variable Exercise 4: Créer de nouvelles variables à partir de votre connaissance du domaine Exercise 5: Préparer vos données pour l’analyse Exercise 6: Construire un workflow Exercise 7: Augmenter le contenu informationnel des données brutes Exercise 8: Identifier les valeurs manquantes Exercise 9: Imputer les valeurs manquantes et créer des variables indicatrices Exercise 10: Ajuster et évaluer le modèle Exercise 11: Prédire les réservations d’hôtel

Dans ce chapitre, vous verrez qu’au‑delà des transformations manuelles, vous pouvez exploiter les outils du tidyverse pour créer automatiquement de nouvelles variables. Vous découvrirez en quoi cette approche améliore la reproductibilité de vos modèles et se révèle particulièrement utile avec des jeux de données comportant de nombreuses variables.

Exercise 1: Pourquoi transformer des variables existantes ?Exercise 2: Jeter un coup d’œil à vos données Exercise 3: Normaliser et appliquer une transformation logarithmique Exercise 4: Ajuster et augmenter Exercise 5: Personnalisez l’évaluation de votre modèle Exercise 6: Transformations courantes des variables Exercise 7: Transformations courantes Exercise 8: Recette simple Exercise 9: Transformation de Box-Cox Exercise 10: Transformation de Yeo-Johnson Exercise 11: Transformations avancées Exercise 12: Référence de base Exercise 13: step_poly()Exercise 14: step_percentile()Exercise 15: Qui reste ?

Vous allez maintenant apprendre que les modèles bénéficient souvent d’une réduction de dimension et de l’extraction de variables à partir de données de grande dimension, notamment en convertissant des textes en valeurs numériques, en encodant des catégories et en classant la puissance prédictive des variables. Vous explorerez des méthodes comme l’analyse en composantes principales, l’analyse en composantes principales à noyau, l’extraction numérique à partir de textes, les encodages catégoriels et les scores d’importance des variables.

Exercise 1: Réduction de la dimensionnalité Exercise 2: Préparer le terrain Exercise 3: Explorer la structure en profondeur Exercise 4: Pourcentage de variance expliquée Exercise 5: Visualiser la variance expliquée Exercise 6: Feature hashing Exercise 7: Examiner le champ d’éducation Exercise 8: Dans la matrice Exercise 9: Explorer le hachage Exercise 10: Visualiser le hashing Exercise 11: Encoder des variables catégorielles à l’aide de l’apprentissage supervisé Exercise 12: Configurer votre workflow Exercise 13: Ajuster, augmenter et évaluer Exercise 14: Assembler les modèles Exercise 15: Importance des variables Exercise 16: Créer un workflow Exercise 17: Ajuster et augmenter Exercise 18: Quel est le principal prédicteur ?

Vous terminerez le cours en découvrant des techniques de feature engineering et de Machine Learning. Vous commencerez par vous concentrer sur les problèmes liés à l’utilisation de toutes les variables disponibles dans un modèle et sur l’importance d’identifier les variables non pertinentes ou redondantes, puis d’apprendre à les supprimer à l’aide de méthodes intégrées comme le lasso et l’elastic‑net. Ensuite, vous explorerez des méthodes de rétrécissement comme le lasso, la ridge et l’elastic‑net, qui permettent de régulariser les poids des variables ou de sélectionner des variables en annulant certains coefficients. Enfin, vous construirez un flux de travail de feature engineering de bout en bout et réviserez les notions et fonctions vues précédemment dans un petit projet.

Exercise 1: Réduire les variables du modèle Exercise 2: Passer au crible l’importance des variables

Exercice actuel

Exercise 3: Évaluer les performances du modèle avec tous les prédicteurs disponibles Exercise 4: Construire un modèle réduit Exercise 5: Méthodes de rétrécissement Exercise 6: Régularisation manuelle avec Lasso Exercise 7: Ajuster la pénalité Exercise 8: Finaliser le modèle Exercise 9: Réunir le tout Exercise 10: Préparer et découper Exercise 11: Prétraiter Exercise 12: Modèle Exercise 13: Évaluer Exercise 14: Félicitations !