1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

列のアセンブル

データ準備の最終段階では、すべての予測子列を1つの列にまとめます。

これまでの演習での変更をすべて反映した、更新済み の flights データには、次の予測子列があります。

  • mon、dom、dow
  • carrier_idx(carrier をインデックス化した値)
  • org_idx(org をインデックス化した値)
  • km
  • depart
  • duration

注: show() メソッドの truncate=False 引数を指定すると、出力でデータが省略されません。

指示

100 XP
  • 予測子をアセンブルするクラスをインポートします。
  • 予測子列を1つの列に結合できるアセンブラオブジェクトを作成します。
  • そのアセンブラを使って新しい統合列を生成します。