1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで挑むKaggleコンペティション

Connected

演習

モデルスタッキング I

いよいよスタッキング(stacking)です。スタッキングを実装するために、前の動画で説明した6つの手順に従いましょう。

  1. 学習データを2つの部分に分割する
  2. Part 1 上で複数のモデルを学習する
  3. Part 2 に対して予測を行う
  4. テストデータに対して予測を行う
  5. Part 2 のデータに対して、予測値を特徴量として用いて新しいモデルを学習する
  6. 第2レベルのモデルを使ってテストデータの予測を行う

train と test の各DataFrameはワークスペースに用意されています。features は Part 1 の学習に用いる列名のリストで、こちらもワークスペースに用意されています。目的変数名は "fare_amount" です。

指示1 / 2

undefined XP
    1
    2
  • train DataFrame を同じ大きさの2つの部分 part_1 と part_2 に分割します。train_test_split() を使い、test_size は 0.5 に設定してください。
  • part_1 のデータで Gradient Boosting と Random Forest のモデルを学習します。