Trier les caractéristiques importantes
Entre autres avantages, les Decision Trees sont très populaires pour leur interprétabilité. De nombreux modèles peuvent fournir des prédictions précises, mais les Decision Trees permettent aussi de quantifier l’effet des différentes caractéristiques sur la cible. Ici, ils peuvent vous indiquer quelles variables ont les impacts les plus forts et les plus faibles sur la décision de quitter l’entreprise. Dans sklearn, vous pouvez obtenir cette information à l’aide de l’attribut feature_importances_.
Dans cet exercice, vous allez récupérer l’importance quantifiée de chaque caractéristique, les enregistrer dans un DataFrame pandas (un tableau en Python), puis les trier de la plus importante à la moins importante. Le classifieur Decision Tree model_ best utilisé dans les exercices précédents est disponible dans votre espace de travail, ainsi que les variables features_test et features_train.
pandas a été importé sous le nom pd.
Cet exercice fait partie du cours
Analytique RH : prédire l’attrition des employés en Python
Instructions
- Utilisez l’attribut
feature_importances_pour calculer les importances relatives des caractéristiques - Créez une liste de caractéristiques
- Enregistrez les résultats dans un DataFrame à l’aide de la fonction
DataFrame(), où les caractéristiques sont les lignes et leurs valeurs respectives une colonne - Triez le DataFrame
relative_importancespour afficher en premier les caractéristiques les plus importantes avec la fonctionsort_values()et affichez le résultat
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Calculate feature importances
feature_importances = model_best.____
# Create a list of features: done
feature_list = list(features)
# Save the results inside a DataFrame using feature_list as an index
relative_importances = pd.____(index=____, data=feature_importances, columns=["importance"])
# Sort values to learn most important features
relative_importances.____(by="importance", ascending=False)