Visualiser l’importance des variables : quelles sont les plus importantes dans mon jeu de données
Une autre façon de visualiser vos modèles XGBoost consiste à examiner l’importance de chaque colonne de variables du jeu de données d’origine dans le modèle.
Une méthode simple consiste à compter le nombre de fois où chaque variable est utilisée pour une division parmi toutes les itérations de boosting (arbres) du modèle, puis à afficher le résultat sous forme d’histogramme, avec les variables triées selon leur fréquence d’apparition. XGBoost propose une fonction plot_importance() qui permet de faire exactement cela, et vous allez l’utiliser dans cet exercice !
Cet exercice fait partie du cours
Extreme Gradient Boosting avec XGBoost
Instructions
- Créez votre
DMatrixà partir deXetycomme précédemment. - Créez un dictionnaire de paramètres avec l’
"objective"approprié ("reg:squarederror") et un"max_depth"de4. - Entraînez le modèle avec
10itérations de boosting, exactement comme dans l’exercice précédent. - Utilisez
xgb.plot_importance()et passez le modèle entraîné pour générer le graphique des importances des variables.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the DMatrix: housing_dmatrix
housing_dmatrix = ____
# Create the parameter dictionary: params
params = ____
# Train the model: xg_reg
xg_reg = ____
# Plot the feature importances
____
plt.show()