1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

데이터의 파티션

SparkContext의 textFile() 메서드는 최소 파티션 수를 지정하는 선택적 두 번째 인수 minPartitions를 받습니다. 이번 연습에서는 5개 파티션을 가진 RDD fileRDD_part를 만든 뒤, 이전 연습에서 만든 fileRDD와 비교해 보세요. RDD에서 파티션을 생성하고 개수를 확인하는 방법은 비디오 2.1의 "Understanding Partition" 슬라이드를 참고하세요.

워크스페이스에는 이미 SparkContext sc, file_path, 그리고 fileRDD가 준비되어 있다는 점을 기억하세요.

지침

100 XP
  • fileRDD RDD의 파티션 개수를 확인하세요.
  • 파일 경로에서 RDD fileRDD_part를 만들되, 파티션을 5개로 지정하세요.
  • 새 RDD fileRDD_part의 파티션 개수를 확인해 보세요.