1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

結果の解釈

どの特徴量が予測に最も影響しているかを知ることは、ほぼ常に重要です。直感に反しているなら、それ自体が洞察かもしれません。あるいは、少数の特徴量がモデルの精度の大半を占めており、他の特徴量の収集や加工に時間をかける必要がない場合もあります。

この例では、LISTPRICE の情報を含めずに学習したモデルを見ていきます。これがないとき、価格に最も影響するのは何でしょうか?

  • 注: 特徴量重要度の配列 importances は、すでに model.featureImportances.toArray() から作成済みです。

指示

100 XP
  • importances の値を使って pandas のデータフレームを作成し、引数 columns を設定して列名を importance にしてください。
  • インポート済みの特徴量名のリスト feature_cols を pd.Series() で包んで新しい pandas.Series を作成し、列 fi_df['feature'] に代入してください。
  • sort_values() を使ってデータフレームを並べ替え、by 引数に importance 列を指定し、ascending を False に設定して降順にソートします。結果を確認してください。