1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Đọc CSV và thực hiện phép tổng hợp

Bạn có một bảng tính về mức lương Data Scientist từ các công ty có quy mô từ nhỏ đến lớn. Bạn muốn xem liệu có sự khác biệt đáng kể giữa mức lương trung bình khi nhóm theo quy mô công ty hay không.

Lưu ý: Trong không gian làm việc của bạn đã có sẵn một SparkSession tên là spark!

Hướng dẫn

100 XP
  • Tải tệp CSV thành một DataFrame và suy luận schema.
  • Trả về số lượng hàng.
  • Nhóm theo cột company_size và tính lương trung bình với salary_in_usd.