フィルター法とラッパー法

Machine Learning の面接では、データセットの次元削減に関する質問がとてもよく出題されます。次元を減らす1つの方法は、データセットから関連する特徴量だけを選ぶことです。

ここでは、diabetes データフレームに対してフィルター法を実践し、その後にクロスバリデーションを含む2種類のラッパー法を行います。相関の可視化、データ処理、特徴量選択の適用には、pandas、matplotlib.pyplot、seaborn を使います。

目的変数列（progression）を落とした特徴量行列は X、目的変数は y として読み込まれています。

なお、pandas、matplotlib.pyplot、seaborn はそれぞれ pd、plt、sns のエイリアスでワークスペースにすでにインポート済みです。

パイプラインに最後の3ステップに適用される Cross-validate ステップを追加している点に注意してください。

Machine learning pipeline

1
- diabetes で相関行列を作成し heatmap を描画して、相関が 50% を超える特徴量をサブセット化してください。

2
- 線形カーネルの SVR 推定器と、5 分割のクロスバリデーションを行う特徴量セレクタをインスタンス化し、特徴量と目的変数に適合させてください。
3
- ステップ2で重要でないと判定された列を X から削除し、LarsCV オブジェクトをインスタンス化してデータに適合させてください。