1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

フライト所要時間モデル:パイプラインモデル

これまで作成したステージをパイプラインにまとめましょう。

パイプラインを構築し、訓練データで学習させます。これにより、パイプライン内の各ステージが順番に訓練データへ適用されます。どのステージもテストデータには一切触れません。漏洩はありません!

パイプライン全体の学習が終わったら、テストデータに対して予測を行います。

データは flights として用意されており、flights_train と flights_test にランダムに分割されています。

指示

100 XP
  • パイプラインを作成するクラスをインポートします。
  • indexer、onehot、assembler、regression の順にステージを指定してパイプラインオブジェクトを作成します。
  • 訓練データでパイプラインを学習させます。
  • テストデータで予測を行います。