1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

フライト出発空港のエンコーディング

フライトデータの org 列は、フライトが出発する空港を表すカテゴリ変数です。

  • ORD — O'Hare International Airport (Chicago)
  • SFO — San Francisco International Airport
  • JFK — John F Kennedy International Airport (New York)
  • LGA — La Guardia Airport (New York)
  • SMF — Sacramento
  • SJC — San Jose
  • OGG — Kahului (Hawaii)

もちろん、これは空港のごく一部だけです。ただし、org はカテゴリ変数なので、回帰モデルで使う前に one-hot エンコードが必要です。

データは flights という変数に入っています。すでに string indexer を使って、org の文字列に対応するインデックス値の列を作成済みです。

必要であれば、IPython Shell の横にある Slides パネルでレッスンのスライドを復習するとよいでしょう。

指示

100 XP
  • one-hot encoder クラスをインポートします。
  • 入力列を org_idx、出力列を org_dummy として、one-hot encoder のインスタンスを作成します。
  • flights データに one-hot encoder を適用します。
  • カテゴリ値からバイナリのダミー変数へのマッピングの概要を作成します。一意の値のみを含め、org_idx で並べ替えてください。