1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Introduction to Data Engineering

Connected

Bài tập

Nhóm dữ liệu với PySpark

Bạn đã thấy cách dùng framework dask và DataFrame của nó để thực hiện một số phép tính. Tuy nhiên, như bạn đã thấy trong video, trong thế giới dữ liệu lớn, Spark có lẽ là lựa chọn phổ biến hơn cho xử lý dữ liệu.

Trong bài tập này, bạn sẽ dùng gói PySpark để làm việc với một Spark DataFrame. Dữ liệu giống như các bài trước: những người tham gia các sự kiện Olympic từ 1896 đến 2016.

Spark DataFrame athlete_events_spark đã có sẵn trong không gian làm việc của bạn.

Các phương thức bạn sẽ dùng trong bài tập này gồm:

  • .printSchema(): in ra schema của một Spark DataFrame.
  • .groupBy(): nhóm dữ liệu để thực hiện phép tổng hợp.
  • .mean(): tính giá trị trung bình cho mỗi nhóm.
  • .show(): hiển thị kết quả.

Hướng dẫn

100 XP
  • Xác định kiểu dữ liệu của athlete_events_spark.
  • Xem schema của athlete_events_spark.
  • In ra tuổi trung bình của các vận động viên Olympic, nhóm theo năm. Lưu ý rằng Spark hiện vẫn chưa thực sự tính toán gì. Bạn có thể gọi đây là đánh giá lười (lazy evaluation).
  • Dùng kết quả trước đó và gọi .show() trên kết quả để thực hiện tính toán tuổi trung bình.