1. 学ぶ
  2. /
  3. コース
  4. /
  5. HRアナリティクス:Pythonで従業員離職を予測する

Connected

演習

重要な特徴量の並べ替え

Decision Tree が人気な理由のひとつは、その解釈性の高さです。正確に予測できるモデルは他にもありますが、Decision Tree は各特徴量が目的変数に与える影響の大きさを数値化できます。ここでは、退職(離職)の意思決定に最も影響する特徴量と、影響が小さい特徴量を特定できます。sklearn では、この情報を feature_importances_ 属性で取得できます。

この演習では、各特徴量の重要度を数値として取得し、pandas の DataFrame(Python で扱う表形式データ)に保存し、重要度が高い順に並べ替えます。前の演習で使用した model_ best の Decision Tree Classifier に加えて、features_test と features_train の変数がワークスペースに用意されています。

pandas は pd としてインポート済みです。

指示

100 XP
  • feature_importances_ 属性を使って、相対的な特徴量の重要度を計算します
  • 特徴量名のリストを作成します
  • DataFrame() 関数を使って結果を DataFrame に保存します。行に特徴量、列にそれぞれの値が入る形にします
  • sort_values() 関数で relative_importances DataFrame を並べ替え、重要度の高い特徴量が上にくるようにして、結果を出力します