1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

Carrier

この演習では、carrier 列をエンコードするために StringIndexer と OneHotEncoder を作成します。そのために、クラスのコンストラクタを inputCol と outputCol の引数付きで呼び出します。

inputCol はインデックス化またはエンコードしたい列名、outputCol は Transformer が作成する新しい列名です。

指示

100 XP
  • inputCol="carrier" と outputCol="carrier_index" を指定して StringIndexer() を呼び出し、carr_indexer という StringIndexer を作成します。
  • inputCol="carrier_index" と outputCol="carrier_fact" を指定して OneHotEncoder() を呼び出し、carr_encoder という OneHotEncoder を作成します。