1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Thực hành caching: phần SQL

Trước đó, chúng ta đã xem hai DataFrame: df1 và df2 (được tạo từ df1). Chúng ta đã thử cache df1, nhưng không cache df2. Trong bài này, bạn sẽ kiểm tra tác động của việc cache df2 nhưng không cache df1.

Một lần nữa, hãy ghi nhận thời gian mà mỗi action mất để chạy. Chúng ta sẽ so sánh chúng ở bài tiếp theo. Nhiệm vụ nào chạy nhanh hơn? Nhiệm vụ nào chậm lại?

Hướng dẫn

100 XP
  • Cache df2, nhưng không cache df1.
  • Chạy một action đầu tiên trên df1 rồi lặp lại, sau đó chạy một action trên df2 rồi lặp lại. Phần này đã được chuẩn bị sẵn cho bạn.