1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

ReduceBykey và Collect

Một trong những phép biến đổi phổ biến nhất với pair RDD là reduceByKey(), hoạt động trên các cặp khóa, giá trị (k,v) và gộp các giá trị theo từng khóa. Trong bài tập này, bạn sẽ tạo một pair RDD từ danh sách các tuple, sau đó gộp các giá trị có cùng khóa và cuối cùng in ra kết quả.

Lưu ý: Bạn đã có sẵn SparkContext sc trong workspace của mình.

Hướng dẫn

100 XP
  • Tạo một pair RDD tên Rdd với các tuple (1,2),(3,4),(3,6),(4,5).
  • Biến đổi Rdd bằng reduceByKey() thành pair RDD Rdd_Reduced bằng cách cộng các giá trị có cùng khóa.
  • Thu thập nội dung của pair RDD Rdd_Reduced và lặp để in ra kết quả.