1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

Exercise

SortByKey와 Collect

키를 기준으로 pair RDD를 정렬하면 유용할 때가 많아요(예를 들어 이 장 후반에 볼 word count 등). 이 연습 문제에서는 이전 연습 문제에서 만든 pair RDD Rdd_Reduced를 내림차순으로 정렬하고 최종 결과를 출력해 보겠습니다.

SparkContext sc와 Rdd_Reduced는 작업 공간에 이미 준비되어 있다는 점을 기억하세요.

Instructions

100 XP
  • 키를 기준으로 Rdd_Reduced RDD를 내림차순으로 정렬하세요.
  • 내용을 collect 한 뒤 순회하며 결과를 출력하세요.