1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark でデータをクレンジングする

Connected

Exercise

ID フィールドの追加

データを扱うときは、特定の列だけにアクセスして各種の処理を行いたいことがあります。 この課題では、DataFrame から有権者名の重複を取り除き、各行に一意の ID 番号を付与します。 Spark の ID は DataFrame のパーティションに基づいて割り当てられるため、ID の値は実際の行数よりも大きくなることがあります。

また、Spark の「遅延」処理により、ID はアクションが実行されるまで実際には生成されず、データセットの大きさによってはややランダムになります。

ワークスペースには spark セッションと、DallasCouncilVotes.csv.gz ファイルを読み込んだ Spark DataFrame df が用意されています。pyspark.sql.functions ライブラリはエイリアス F で利用できます。

Instructions

100 XP
  • 列 VOTER NAME から重複のないエントリを選び、voter_df という新しい DataFrame を作成します。
  • voter_df DataFrame の行数をカウントします。
  • 適切な Spark 関数を使って ROW_ID 列を追加します。
  • ROW_ID が大きい順に上位 10 行を表示します。