1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Phân vùng trong dữ liệu của bạn

Phương thức textFile() của SparkContext nhận một đối số thứ hai tùy chọn gọi là minPartitions để chỉ định số lượng phân vùng tối thiểu. Trong bài tập này, bạn sẽ tạo một RDD tên fileRDD_part với 5 phân vùng rồi so sánh với fileRDD mà bạn đã tạo ở bài trước. Tham khảo slide "Understanding Partition" trong video 2.1 để biết các phương thức tạo và lấy số lượng phân vùng trong một RDD.

Lưu ý, bạn đã có sẵn SparkContext sc, file_path và fileRDD trong không gian làm việc.

Hướng dẫn

100 XP
  • Tìm số lượng phân vùng của RDD fileRDD.
  • Tạo một RDD tên fileRDD_part từ đường dẫn tệp nhưng tạo 5 phân vùng.
  • Xác nhận số lượng phân vùng trong RDD fileRDD_part mới.