Visualisation de l'importance des caractéristiques
Dans cet exercice, vous déterminerez quelles caractéristiques étaient les plus prédictives selon le régresseur de forêts aléatoires rf que vous avez formé dans un exercice précédent.
À cette fin, vous allez créer un histogramme horizontal représentant l'importance des caractéristiques telle qu'évaluée par rf. Heureusement, cela peut être réalisé facilement grâce aux capacités graphiques pandas.
Nous avons créé un objet pandas.Series appelé importances contenant les noms des fonctionnalités en tant qu'index et leur importance en tant que valeurs. De plus, matplotlib.pyplot est disponible en tant que plt et pandas en tant que pd.
Cet exercice fait partie du cours
Machine learning avec des modèles arborescents en Python
Instructions
Appelez la méthode
.sort_values()surimportanceset attribuez le résultat àimportances_sorted.Appelez la méthode
.plot()surimportances_sortedet définissez les arguments :kindà'barh'colorà'lightgreen'
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a pd.Series of features importances
importances = pd.Series(data=rf.feature_importances_,
index= X_train.columns)
# Sort importances
importances_sorted = ____
# Draw a horizontal barplot of importances_sorted
____.____(____='____', ____='____')
plt.title('Features Importances')
plt.show()