1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Ghi cấu hình Spark

Sau khi bạn đã xem lại một số cấu hình Spark trên cụm, bạn muốn điều chỉnh một vài thiết lập để tối ưu Spark cho nhu cầu của mình. Bạn sẽ nhập một số dữ liệu để kiểm tra rằng các thay đổi đã tác động đến cụm.

Cấu hình Spark ban đầu được đặt ở giá trị mặc định là 200 partition.

Đối tượng spark đã sẵn sàng để sử dụng. Tệp departures.txt.gz có sẵn để import. Một DataFrame ban đầu chứa các dòng khác nhau (distinct) từ departures.txt.gz đã có sẵn với tên departures_df.

Hướng dẫn

100 XP
  • Lưu số lượng partition trong departures_df vào biến before.
  • Đổi cấu hình spark.sql.shuffle.partitions thành 500 partition.
  • Tạo lại DataFrame departures_df bằng cách đọc các dòng khác nhau (distinct) từ tệp departures.
  • In ra số lượng partition trước và sau khi thay đổi cấu hình.