CommencerCommencer gratuitement

Visualiser l’importance des variables : quelles sont les plus importantes dans mon jeu de données

Une autre façon de visualiser vos modèles XGBoost consiste à examiner l’importance de chaque colonne de variables du jeu de données d’origine dans le modèle.

Une méthode simple consiste à compter le nombre de fois où chaque variable est utilisée pour une division parmi toutes les itérations de boosting (arbres) du modèle, puis à afficher le résultat sous forme d’histogramme, avec les variables triées selon leur fréquence d’apparition. XGBoost propose une fonction plot_importance() qui permet de faire exactement cela, et vous allez l’utiliser dans cet exercice !

Cet exercice fait partie du cours

Extreme Gradient Boosting avec XGBoost

Afficher le cours

Instructions

  • Créez votre DMatrix à partir de X et y comme précédemment.
  • Créez un dictionnaire de paramètres avec l’"objective" approprié ("reg:squarederror") et un "max_depth" de 4.
  • Entraînez le modèle avec 10 itérations de boosting, exactement comme dans l’exercice précédent.
  • Utilisez xgb.plot_importance() et passez le modèle entraîné pour générer le graphique des importances des variables.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create the DMatrix: housing_dmatrix
housing_dmatrix = ____

# Create the parameter dictionary: params
params = ____

# Train the model: xg_reg
xg_reg = ____

# Plot the feature importances
____
plt.show()
Modifier et exécuter le code