多重共線性の対処法 - 特徴量エンジニアリング

多重共線性は、Machine Learning のあらゆる場面でパフォーマンスに影響する一般的な課題です。この小さなポイントを自信を持って語れると、モデリングの説明がぐっと洗練され、面接でも差がつきます。

この演習では、diabetes データセットに対して Linear Regression を使ったベースラインモデルを作り、いくつかの出力指標を確認します。次に、独立変数同士の相関を可視化して探る方法を練習し、最後に高い相関を持つ2つの変数に対して特徴量エンジニアリングを行います。

最初の2ステップでは、ワークスペースに読み込まれている X_train、X_test、y_train、y_test を使用してください。

また、必要なパッケージはすべてインポート済みです： pandas は pd、sklearn.model_selection から train_test_split、sklearn.linear_model から LinearRegression、sklearn.metrics から mean_squared_error と r2_score、matplotlib.pyplot は plt、seaborn は sns です。

1
- Linear Regression をインスタンス化、学習、予測します。
- モデルの係数、MSE、決定係数 (r-squared) を出力します。

2
- 相関行列を作成し、ヒートマップで可視化します。
- 独立変数間の関係を調べるために行列を出力します。
3
- diabetes の s1 と s2 を組み合わせて新しい特徴量を作成し、その後それらを削除します。
- データをテストサイズ30%で学習用とテスト用に分割し、列名を出力します。
4
- Linear Regression をインスタンス化、学習、予測します。
- モデルの係数、MSE、決定係数 (r-squared) を出力します.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示1 / 4

演習