1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

ピボットと結合

複合フィールドを explode してピボットできるのは便利ですが、そのままだとピボットした値だけの DataFrame になってしまいます。実用的にするには、元のデータセットに再結合する必要があります。データセットを結合すると、新しく作成された列には多くの NULL が入りますが、作成時の文脈がわかっているので、属性が「あるか・ないか」を表すだけです。安全に 0 で埋めて問題ありません。

指示

100 XP
  • レコード ID NO で groupBy() し、ex_garage_list の値をピボットします。NULL を無視して最初の値を取るために、用意されたコードで constant_val を集約してください。
  • NO を結合条件に使い、piv_df を df に左外部結合します。
  • piv_df の columns 属性を使って、0 埋めする列名リスト zfill_cols を作成します。
  • fillna() の subset を使い、ピボット後のデータフレームの列 zfill_cols を 0 で埋めます。