1. Learn
  2. /
  3. Courses
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Exercise

So sánh join broadcast và join thường

Bạn đã tạo hai kiểu join: thường và broadcast. Giờ quản lý muốn biết mức cải thiện hiệu năng khi dùng các tối ưu của Spark. Nếu kết quả khả quan, bạn sẽ có thêm cơ hội tinh chỉnh cấu hình Spark khi cần.

Các DataFrame normal_df và broadcast_df đã sẵn sàng để bạn sử dụng.

Instructions

100 XP
  • Gọi .count() trên DataFrame thường.
  • Gọi .count() trên DataFrame broadcast.
  • In ra số lượng và thời gian chạy của các DataFrame, lưu ý những điểm khác biệt.