1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

パイプラインを作成する

いよいよ Pipeline を作成します!

Pipeline は pyspark.ml モジュールのクラスで、これまでに作成したすべての Estimator と Transformer をひとつにまとめます。これにより、モデリングの手順をシンプルなオブジェクトに包んで何度でも再利用できるようになります。便利ですね。

指示

100 XP
  • pyspark.ml から Pipeline をインポートします。
  • キーワード引数 stages を指定して Pipeline() コンストラクタを呼び出し、flights_pipe という Pipeline を作成します。
    • stages には、パイプラインでデータを通したい全ステージを格納したリストを渡します。ここでは次のとおりです: [dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]