ID活用のさらなるテクニック

一度Sparkの処理を定義したら、それを何度も使いたくなることが多いです。要件によっては、IDが過去の実行と重ならないように、特定の値から開始したい場合があります。これは、リレーショナルデータベースでのIDの扱いに似ています。あなたのタスクは、毎月のSparkタスクから出力されるIDが、前月の最大値から始まることを確認することです。

作業スペースには spark セッションと2つのDataFrame、voter_df_march と voter_df_april が用意されています。pyspark.sql.functions ライブラリはエイリアス F で利用できます。