1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Thu thập RDDs

Trong bài tập này, bạn sẽ làm việc với cả RDD và DataFrame trong PySpark. Mục tiêu là nhóm dữ liệu và thực hiện phép tổng hợp bằng cả thao tác trên RDD và phương thức của DataFrame.

Bạn sẽ tải một tệp CSV chứa dữ liệu lương nhân viên vào PySpark dưới dạng RDD. Sau đó, bạn sẽ nhóm theo mức độ kinh nghiệm và tính mức lương tối đa cho mỗi mức độ kinh nghiệm từ một DataFrame. Bằng cách này, bạn sẽ thấy điểm mạnh tương đối của cả hai định dạng dữ liệu.

Bộ dữ liệu bạn dùng liên quan đến Data Scientist Salaries, nên việc tìm xu hướng thị trường sẽ rất có ích cho bạn! Chúng tôi đã tải và chuẩn hóa dữ liệu sẵn cho bạn! Hãy nhớ rằng đã có một SparkSession tên là spark trong môi trường làm việc của bạn!

Hướng dẫn

100 XP
  • Tạo một RDD từ một DataFrame.
  • Thu thập và hiển thị kết quả của RDD và DataFrame.
  • Nhóm theo "experience_level" và tính mức lương tối đa cho từng nhóm.