1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

CountingBykeys

Với nhiều bộ dữ liệu, việc đếm số lượng key trong tập dữ liệu key/value là rất quan trọng. Ví dụ: đếm số quốc gia nơi sản phẩm được bán, hoặc tìm các tên em bé phổ biến nhất. Trong bài tập đơn giản này, bạn sẽ dùng Rdd mà bạn đã tạo trước đó và đếm số lượng key duy nhất trong pair RDD đó.

Lưu ý: bạn đã có sẵn SparkContext sc và Rdd trong môi trường làm việc.

Hướng dẫn

100 XP
  • Dùng countByKey và gán kết quả cho biến total.
  • total có kiểu dữ liệu gì?
  • Lặp qua total và in ra các key cùng số lần xuất hiện của chúng.