Ghi cấu hình Spark

Sau khi bạn đã xem lại một số cấu hình Spark trên cụm, bạn muốn điều chỉnh một vài thiết lập để tối ưu Spark cho nhu cầu của mình. Bạn sẽ nhập một số dữ liệu để kiểm tra rằng các thay đổi đã tác động đến cụm.

Cấu hình Spark ban đầu được đặt ở giá trị mặc định là 200 partition.

Đối tượng spark đã sẵn sàng để sử dụng. Tệp departures.txt.gz có sẵn để import. Một DataFrame ban đầu chứa các dòng khác nhau (distinct) từ departures.txt.gz đã có sẵn với tên departures_df.