1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶMachine Learning面接対策

Connected

연습 문제

フィルター法とラッパー法

Machine Learning の面接では、データセットの次元削減に関する質問がとてもよく出題されます。次元を減らす1つの方法は、データセットから関連する特徴量だけを選ぶことです。

ここでは、diabetes データフレームに対してフィルター法を実践し、その後にクロスバリデーションを含む2種類のラッパー法を行います。相関の可視化、データ処理、特徴量選択の適用には、pandas、matplotlib.pyplot、seaborn を使います。

目的変数列(progression)を落とした特徴量行列は X、目的変数は y として読み込まれています。

なお、pandas、matplotlib.pyplot、seaborn はそれぞれ pd、plt、sns のエイリアスでワークスペースにすでにインポート済みです。

パイプラインに最後の3ステップに適用される Cross-validate ステップを追加している点に注意してください。

Machine learning pipeline

지침 1/3

undefined XP
  • 1
    • diabetes で相関行列を作成し heatmap を描画して、相関が 50% を超える特徴量をサブセット化してください。
  • 2
    • 線形カーネルの SVR 推定器と、5 分割のクロスバリデーションを行う特徴量セレクタをインスタンス化し、特徴量と目的変数に適合させてください。
  • 3
    • ステップ2で重要でないと判定された列を X から削除し、LarsCV オブジェクトをインスタンス化してデータに適合させてください。