1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

テキストから新しい特徴量を抽出する

ミネソタの住宅では、ほとんどの人が車を所有し、屋外駐車の車に積もった雪を払うのが大変なため、ガレージは重要な要素です。ガレージの種類も大切で、寒さにさらされずに車へ行けるかどうかがポイントになります。ここでは、ガレージが家に「接続されているか」を表す特徴量 has_attached_garage を作成してみましょう。

指示

100 XP
  • 必要な関数 when() を pyspark.sql.functions からインポートします。
  • df['GARAGEDESCRIPTION'] 内で文字列パターン Attached Garage を探す条件を like() で作成します。フィールド内のどこにあってもマッチするようにワイルドカード % を使います。
  • 同様に、df['GARAGEDESCRIPTION'] 内で文字列パターン Detached Garage を探す条件を like() で作成し、どこでもマッチするようにワイルドカード % を使います。
  • 新しい列 has_attached_garage を作成し、when() を使って「接続型」なら 1、「独立型」なら 0 を割り当て、どちらでもない場合は otherwise() で None(null)を割り当てます。