1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

ReduceBykey와 Collect

가장 널리 쓰이는 pair RDD 변환 중 하나는 reduceByKey()입니다. 이 메서드는 키-값 (k,v) 쌍에서 동작하며 키별로 값을 병합해요. 이 연습 문제에서는 먼저 튜플 리스트로부터 pair RDD를 만든 다음, 같은 키의 값을 합치고, 마지막으로 결과를 출력해 보겠습니다.

워크스페이스에는 이미 SparkContext sc가 준비되어 있다는 점을 기억하세요.

지침

100 XP
  • (1,2), (3,4), (3,6), (4,5) 튜플로 pair RDD Rdd를 생성하세요.
  • 같은 키의 값을 더해 reduceByKey()로 Rdd를 변환하여 pair RDD Rdd_Reduced를 만드세요.
  • pair RDD Rdd_Reduced의 내용을 collect한 뒤, 순회하며 출력을 인쇄하세요.