1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

フライト所要時間モデル:パイプラインの各ステージ

フライトの所要時間モデル用パイプラインの各ステージを作成します。次の演習で、これらを使ってパイプラインを構築し、回帰モデルを作成します。

StringIndexer、OneHotEncoder、VectorAssembler、LinearRegression クラスはすでにインポート済みです。

指示

100 XP
  • 'org' 列を、'org_idx' という名前のインデックス化された列に変換する indexer を作成します。
  • 'org_idx' と 'dow' 列を、それぞれ 'org_dummy' と 'dow_dummy' という名前のダミー変数列に変換する one-hot encoder を作成します。
  • 'km' 列と、上記2つのダミー変数列を結合する assembler を作成します。出力列名は 'features' とします。
  • フライトの所要時間を予測する線形回帰オブジェクトを作成します。

必要であれば、IPython Shell の横にある Slides パネルからレッスンのスライドを見直すと役立ちます。