1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

SortByKey và Collect

Nhiều khi bạn sẽ cần sắp xếp pair RDD dựa trên khóa (ví dụ như bài toán đếm từ mà bạn sẽ thấy ở phần sau của chương). Trong bài này, bạn sẽ sắp xếp pair RDD Rdd_Reduced mà bạn đã tạo ở bài trước theo thứ tự giảm dần và in ra kết quả cuối cùng.

Lưu ý, bạn đã có sẵn SparkContext sc và Rdd_Reduced trong không gian làm việc.

Hướng dẫn

100 XP
  • Sắp xếp RDD Rdd_Reduced theo khóa theo thứ tự giảm dần.
  • Thu thập nội dung và lặp để in ra kết quả.