1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

曜日の二値化

前の動画で、週末に物件が掲載される可能性はとても低いとわかりました。平日に掲載かどうかを示す新しいフィールドを作成しましょう。この例では、List_Day_of_Week というフィールドがあり、Monday が 1.0、Sunday が 7.0 とラベル付けされています。これを、平日を 0、週末を 1 とする二値のフィールドに変換します。これには PySpark の特徴量トランスフォーマー Binarizer を使います。

指示

100 XP
  • pyspark の ml.feature モジュールから特徴量トランスフォーマー Binarizer をインポートします。
  • Binarizer() を使ってトランスフォーマーを作成します。1 にするしきい値は Friday の次、つまり 5.0 より後に設定し、入力列を List_Day_of_Week、出力列を Listed_On_Weekend にします。
  • transform() を使って df に Binarizer の変換を適用します。
  • show() で List_Day_of_Week と Listed_On_Weekend の列を選択して、変換が正しく行われたか確認します。