1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

出発時刻のバケット化

一日の時刻データは回帰モデルでは扱いが難しい一方で、バケット化にとても向いています。

このレッスンでは、フライトの出発時刻を 0(00:00 に対応)から 24(24:00 に対応)までの数値から、区間に分けたバケット値へ変換します。さらに、そのバケット値を one-hot エンコードします。

指示

100 XP
  • 0, 3, 6, …, 24(0:00、03:00、06:00、…, 24:00 に対応)を境界に持つ bucketizer オブジェクトを作成します。入力列は depart、出力列は depart_bucket と指定します。
  • flights データの出発時刻をバケット化します。depart と depart_bucket の先頭5件を表示します。
  • one-hot encoder オブジェクトを作成し、入力列に depart_bucket、出力列に depart_dummy を指定します。
  • エンコーダをバケット化したデータに fit() し、その後このデータをダミー変数に変換するために transform() を使います。depart、depart_bucket、depart_dummy の先頭5件を表示します。