CommencerCommencer gratuitement

Trier les caractéristiques importantes

Entre autres avantages, les Decision Trees sont très populaires pour leur interprétabilité. De nombreux modèles peuvent fournir des prédictions précises, mais les Decision Trees permettent aussi de quantifier l’effet des différentes caractéristiques sur la cible. Ici, ils peuvent vous indiquer quelles variables ont les impacts les plus forts et les plus faibles sur la décision de quitter l’entreprise. Dans sklearn, vous pouvez obtenir cette information à l’aide de l’attribut feature_importances_.

Dans cet exercice, vous allez récupérer l’importance quantifiée de chaque caractéristique, les enregistrer dans un DataFrame pandas (un tableau en Python), puis les trier de la plus importante à la moins importante. Le classifieur Decision Tree model_ best utilisé dans les exercices précédents est disponible dans votre espace de travail, ainsi que les variables features_test et features_train.

pandas a été importé sous le nom pd.

Cet exercice fait partie du cours

Analytique RH : prédire l’attrition des employés en Python

Afficher le cours

Instructions

  • Utilisez l’attribut feature_importances_ pour calculer les importances relatives des caractéristiques
  • Créez une liste de caractéristiques
  • Enregistrez les résultats dans un DataFrame à l’aide de la fonction DataFrame(), où les caractéristiques sont les lignes et leurs valeurs respectives une colonne
  • Triez le DataFrame relative_importances pour afficher en premier les caractéristiques les plus importantes avec la fonction sort_values() et affichez le résultat

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Calculate feature importances
feature_importances = model_best.____

# Create a list of features: done
feature_list = list(features)

# Save the results inside a DataFrame using feature_list as an index
relative_importances = pd.____(index=____, data=feature_importances, columns=["importance"])

# Sort values to learn most important features
relative_importances.____(by="importance", ascending=False)
Modifier et exécuter le code