1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 데이터 정제하기

Connected

연습 문제

Spark 구성 작성하기

클러스터의 일부 Spark 구성을 살펴본 뒤, 필요에 맞게 Spark를 튜닝하도록 설정을 변경해 보겠습니다. 변경 사항이 클러스터에 반영되었는지 확인하기 위해 데이터를 가져올 거예요.

초기 spark 구성에서는 파티션 수가 기본값인 200으로 설정되어 있습니다.

spark 객체를 사용할 수 있어요. 가져올 수 있는 departures.txt.gz 파일이 제공됩니다. departures.txt.gz에서 중복을 제거한 행으로 만든 초기 DataFrame은 departures_df로 제공됩니다.

지침

100 XP
  • departures_df의 파티션 수를 변수 before에 저장하세요.
  • spark.sql.shuffle.partitions 구성을 파티션 500으로 변경하세요.
  • 출발 파일에서 중복을 제거한 행을 읽어 departures_df DataFrame을 다시 생성하세요.
  • 구성 변경 전과 후의 파티션 수를 출력하세요.