더 다양한 ID 처리 요령

한 번 Spark 처리를 정의해 두면 여러 번 재사용하게 될 가능성이 큽니다. 필요에 따라 이전에 실행한 Spark 작업과 ID가 겹치지 않도록 특정 값에서부터 ID를 시작하고 싶을 수 있어요. 이 동작은 관계형 데이터베이스에서 ID가 동작하는 방식과 비슷합니다. 이번 과제는 매월 실행되는 Spark 작업에서, 이전 달의 최고값 다음부터 ID가 시작되도록 보장하는 것입니다.

spark 세션과 두 개의 DataFrame voter_df_march, voter_df_april이 작업 공간에 준비되어 있습니다. pyspark.sql.functions 라이브러리는 별칭 F로 사용할 수 있어요.