1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

フライト所要時間モデル:正則化!

前の演習では、フライト所要時間モデルに予測変数を追加しました。テストデータでの性能は良好でしたが、係数が多すぎて解釈が難しくなりました。

この演習では、L1 ペナルティで正則化された Lasso 回帰を使って、より簡潔なモデルを作成します。結果のモデルでは多くの係数が 0 に設定されます。つまり、実際にモデルに寄与するのは予測変数の一部だけです。モデルはシンプルでも、テストデータでの RMSE は依然として良好です。

ここでは正則化の強さに特定の値を使います。最適な値の見つけ方は、後ほどクロスバリデーションで学びます。

データ(前の演習と同じ)は flights で、flights_train と flights_test にランダムに分割されています。

このモデルには 2 つのパラメータ、λ(regParam)と α(elasticNetParam)があり、α が正則化の「種類」を、λ が正則化の「強さ」を決めます。

指示

100 XP
  • 学習データに線形回帰モデルを当てはめます。正則化の強さは 1 に設定します。
  • テストデータで RMSE を計算します。
  • モデルの係数を確認します。
  • 係数のうち、0 と等しいものはいくつありますか?