1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. PySpark로 데이터 정제하기

Connected

अभ्यास

Parquet 형식으로 DataFrame 저장하기

Spark로 작업할 때는 보통 CSV, JSON 같은 다양한 데이터 소스에서 시작해요. 이는 적재할 데이터 유형에 유연성을 주지만, Spark에 최적화된 형식은 아니에요. Parquet 형식은 컬럼 지향 저장 방식으로, Spark가 predicate pushdown을 사용할 수 있게 해요. 즉, 전체 데이터셋을 읽는 대신, 여러분이 정의한 연산을 완료하는 데 필요한 데이터만 처리해요. 덕분에 Spark가 데이터에 더 유연하게 접근할 수 있고, 대규모 데이터셋에서 성능이 크게 향상되는 경우가 많아요.

이번 연습에서는 새 Parquet 파일을 만들고, 그 파일에서 일부 데이터를 처리해 보겠습니다.

spark 객체와 df1, df2 DataFrame은 미리 준비되어 있어요.

निर्देश

100 XP
  • df1과 df2의 행 개수를 확인하세요.
  • union 메서드를 사용해 df1과 df2를 결합한 새 DataFrame df3를 만드세요.
  • df3를 AA_DFW_ALL.parquet라는 parquet 파일로 저장하세요.
  • AA_DFW_ALL.parquet 파일을 읽고 개수를 출력하세요.