1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Map và Collect

Phương thức chính để bạn thao tác dữ liệu trong PySpark là dùng map(). Phép biến đổi map() nhận vào một hàm và áp dụng hàm đó cho từng phần tử của RDD. Nó có thể dùng cho rất nhiều việc, từ lấy website tương ứng với mỗi URL trong tập của bạn cho đến chỉ đơn giản là bình phương các số. Trong bài tập đơn giản này, bạn sẽ dùng phép biến đổi map() để lập phương mỗi số trong RDD numbRDD mà bạn đã tạo trước đó. Tiếp theo, bạn sẽ lưu tất cả phần tử vào một biến và cuối cùng in kết quả ra.

Lưu ý, bạn đã có sẵn SparkContext sc và numbRDD trong không gian làm việc của mình.

Hướng dẫn

100 XP
  • Tạo phép biến đổi map() để lập phương tất cả các số trong numbRDD.
  • Thu thập kết quả vào một biến numbers_all.
  • In kết quả từ biến numbers_all.