1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

So sánh join broadcast và join thường

Bạn đã tạo hai kiểu join: thường và broadcast. Giờ quản lý muốn biết mức cải thiện hiệu năng khi dùng các tối ưu của Spark. Nếu kết quả khả quan, bạn sẽ có thêm cơ hội tinh chỉnh cấu hình Spark khi cần.

Các DataFrame normal_df và broadcast_df đã sẵn sàng để bạn sử dụng.

Hướng dẫn

100 XP
  • Gọi .count() trên DataFrame thường.
  • Gọi .count() trên DataFrame broadcast.
  • In ra số lượng và thời gian chạy của các DataFrame, lưu ý những điểm khác biệt.