Parquet 형식으로 DataFrame 저장하기

Spark로 작업할 때는 보통 CSV, JSON 같은 다양한 데이터 소스에서 시작해요. 이는 적재할 데이터 유형에 유연성을 주지만, Spark에 최적화된 형식은 아니에요. Parquet 형식은 컬럼 지향 저장 방식으로, Spark가 predicate pushdown을 사용할 수 있게 해요. 즉, 전체 데이터셋을 읽는 대신, 여러분이 정의한 연산을 완료하는 데 필요한 데이터만 처리해요. 덕분에 Spark가 데이터에 더 유연하게 접근할 수 있고, 대규모 데이터셋에서 성능이 크게 향상되는 경우가 많아요.

이번 연습에서는 새 Parquet 파일을 만들고, 그 파일에서 일부 데이터를 처리해 보겠습니다.

spark 객체와 df1, df2 DataFrame은 미리 준비되어 있어요.