1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶMachine Learning面接対策

Connected

연습 문제

多重共線性の対処法 - 特徴量エンジニアリング

多重共線性は、Machine Learning のあらゆる場面でパフォーマンスに影響する一般的な課題です。この小さなポイントを自信を持って語れると、モデリングの説明がぐっと洗練され、面接でも差がつきます。

この演習では、diabetes データセットに対して Linear Regression を使ったベースラインモデルを作り、いくつかの出力指標を確認します。次に、独立変数同士の相関を可視化して探る方法を練習し、最後に高い相関を持つ2つの変数に対して特徴量エンジニアリングを行います。

最初の2ステップでは、ワークスペースに読み込まれている X_train、X_test、y_train、y_test を使用してください。

また、必要なパッケージはすべてインポート済みです: pandas は pd、sklearn.model_selection から train_test_split、sklearn.linear_model から LinearRegression、sklearn.metrics から mean_squared_error と r2_score、matplotlib.pyplot は plt、seaborn は sns です。

지침 1/4

undefined XP
  • 1
    • Linear Regression をインスタンス化、学習、予測します。
    • モデルの係数、MSE、決定係数 (r-squared) を出力します。
  • 2
    • 相関行列を作成し、ヒートマップで可視化します。
    • 独立変数間の関係を調べるために行列を出力します。
  • 3
    • diabetes の s1 と s2 を組み合わせて新しい特徴量を作成し、その後それらを削除します。
    • データをテストサイズ30%で学習用とテスト用に分割し、列名を出力します。
  • 4
    • Linear Regression をインスタンス化、学習、予測します。
    • モデルの係数、MSE、決定係数 (r-squared) を出力します.