1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Tạo RDD

Trong PySpark, bạn có thể tạo một RDD (Resilient Distributed Dataset) theo vài cách khác nhau. Vì bạn đã quen với DataFrame, ở đây bạn sẽ thiết lập thông qua một DataFrame. Lưu ý: đã có sẵn một SparkSession tên là spark trong môi trường làm việc của bạn!

Hướng dẫn

100 XP
  • Tạo một DataFrame từ danh sách đã cung cấp, đặt tên là df.
  • Chuyển DataFrame thành một RDD.
  • Thu thập và in RDD thu được.