1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

RDD sang DataFrame

Tương tự như RDD, DataFrame là cấu trúc dữ liệu bất biến và phân tán trong Spark. Dù RDD là cấu trúc dữ liệu nền tảng của Spark, làm việc với dữ liệu trong DataFrame thường dễ hơn so với RDD. Vì vậy, bạn cần hiểu cách chuyển một RDD thành DataFrame.

Trong bài tập này, trước tiên bạn sẽ tạo một RDD từ sample_list đã được cung cấp. RDD này chứa một danh sách các tuple ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) với mỗi tuple gồm tên người và tuổi của họ. Tiếp theo, bạn sẽ tạo một DataFrame bằng RDD và schema (là danh sách gồm 'Name' và 'Age') rồi cuối cùng xác nhận rằng đầu ra là một PySpark DataFrame.

Lưu ý, bạn đã có sẵn SparkContext sc và SparkSession spark trong môi trường làm việc.

Hướng dẫn

100 XP
  • Tạo một RDD từ sample_list.
  • Tạo một PySpark DataFrame từ RDD và schema ở trên.
  • Xác nhận đầu ra là PySpark DataFrame.