ID 필드 추가하기

데이터를 다룰 때는 특정 필드만 선택해 다양한 연산을 수행할 때가 있어요. 이번에는 DataFrame에서 모든 고유한 투표자 이름을 찾고, 각 항목에 고유 ID 번호를 추가해 보세요. Spark의 ID는 DataFrame의 파티션을 기준으로 부여되므로, ID 값이 실제 행 수보다 훨씬 클 수 있다는 점을 기억하세요.

또한 Spark의 지연(lazy) 처리 특성상, ID는 액션이 수행될 때 실제로 생성되며 데이터셋 크기에 따라 다소 임의적으로 보일 수 있어요.

작업 공간에는 spark 세션과 DallasCouncilVotes.csv.gz 파일을 담은 Spark DataFrame df가 준비되어 있어요. pyspark.sql.functions 라이브러리는 별칭 F로 사용할 수 있어요.