1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

分割と展開(Split & Explode)

GARAGEDESCRIPTION のような複合フィールドを、使える形に整えるには段階を踏む必要があります。まずは、展開することでどんな価値が得られるかを早い段階で把握しておくと役立ちます。この例では、文字列をリスト風の配列に変換し、explode で展開してから、一意な値を確認します。

指示

100 XP
  • 必要な関数 pyspark.sql.functions の split() と explode() をインポートします。
  • split() を使い、df['GARAGEDESCRIPTION'] を「,(カンマ+半角スペース)」で分割して新しい列 garage_list を作成します。
  • explode() を使って df['garage_list'] の各値ごとに新しいレコードを作成し、新しい列名を ex_garage_list とします。
  • distinct() で ex_garage_list の重複を除いた一意な値を取得し、最初の100行を show で表示します。値の表示は 50 文字でトランケートしてください。