빠른 파이프라인

더 복잡한 데이터를 파싱하기 전에, 관리자님이 기본 단계를 포함한 간단한 파이프라인 예시를 보고 싶어 하십니다. 이 예시에서는 데이터 파일을 읽어 들이고, 몇 개의 행을 필터링하고, ID 열을 추가한 다음, JSON 데이터로 저장해 보겠습니다.

spark 컨텍스트가 정의되어 있으며, 관례대로 pyspark.sql.functions 라이브러리는 F로 별칭을 붙여 두었습니다.