1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

ベクターを組み立てる

Pipeline の最後のステップでは、特徴量を含むすべての列を1つの列にまとめます。Spark のモデリング手法はすべて、この形式のデータを想定しているため、モデリングの前に必ず行う必要があります。これを行うには、各列の値をベクターの要素として格納します。すると、モデルの観点では、各観測はそれに関するすべての情報を含むベクターと、その観測がどの値に対応するかを示すラベルから成ることになります。

このため、pyspark.ml.feature サブモジュールには VectorAssembler というクラスがあります。この Transformer は、指定したすべての列を受け取り、新しいベクター列に結合します。

指示

100 XP
  • VectorAssembler() を呼び出し、inputCols に列名のリスト、outputCol に "features" を指定して VectorAssembler を作成します。
    • 列のリストは ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"] とします。