1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

フライト所要時間モデル:出発空港の追加

空港によって混雑度や規模が異なります。大規模または混雑した空港から出発するフライトは、滑走路での待機時間や離陸順番の待ち時間が長くなりがちです。つまり、フライトの所要時間は移動距離だけでなく、出発する空港にも左右されると考えられます。

ここでは、出発空港を予測因子として追加し、回帰モデルを少し高度にします。

データは学習用とテスト用に分割され、flights_train と flights_test として利用できます。org 列にある出発空港は org_idx にインデックス化され、さらにワンホットエンコードされて org_dummy に変換されています。先頭の数件はターミナルに表示されています。

指示

100 XP
  • 学習データに対して線形回帰モデルを学習させます。
  • テストデータに対して予測を行います。
  • テストデータでの予測について RMSE を計算します。