1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Tạo RDD từ bộ sưu tập được song song hóa

Resilient Distributed Dataset (RDD) là trừu tượng cơ bản trong Spark. Đây là một tập hợp các đối tượng được phân tán và bất biến. Vì RDD là kiểu dữ liệu nền tảng và xương sống của Spark, nên việc hiểu cách tạo nó là rất quan trọng. Trong bài tập này, bạn sẽ tạo RDD đầu tiên trong PySpark từ một tập hợp các từ.

Lưu ý: bạn đã có sẵn SparkContext sc trong không gian làm việc.

Hướng dẫn

100 XP
  • Tạo một RDD tên RDD từ danh sách Python các từ.
  • Xác nhận đối tượng được tạo là RDD.