ID フィールドの追加

データを扱うときは、特定の列だけにアクセスして各種の処理を行いたいことがあります。この課題では、DataFrame から有権者名の重複を取り除き、各行に一意の ID 番号を付与します。 Spark の ID は DataFrame のパーティションに基づいて割り当てられるため、ID の値は実際の行数よりも大きくなることがあります。

また、Spark の「遅延」処理により、ID はアクションが実行されるまで実際には生成されず、データセットの大きさによってはややランダムになります。

ワークスペースには spark セッションと、DallasCouncilVotes.csv.gz ファイルを読み込んだ Spark DataFrame df が用意されています。pyspark.sql.functions ライブラリはエイリアス F で利用できます。