1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Thực hành cache: phần 1

Trong vài bài tiếp theo, bạn sẽ thử nghiệm các cách khác nhau để cache hai DataFrame.

DataFrame df1 được nạp từ một tệp csv. Nó được xử lý qua một vài bước. Vì df1 sẽ được dùng nhiều lần, nó là ứng viên để cache.

DataFrame thứ hai df2 được tạo bằng cách thực hiện các bước tính toán nặng hơn trên df1. Nó cũng là ứng viên để cache.

Vì df2 phụ thuộc vào df1, câu hỏi đặt ra là: nên cache df1 hay cache df2 thì hiệu quả hơn?

Trong bài này, chúng ta sẽ thử cache df1. Hãy ghi nhận thời gian mà mỗi hành động mất. Chúng ta sẽ so sánh chúng ở bài tiếp theo.

Hướng dẫn

100 XP
  • Chỉ cache df1.
  • Chạy một hành động đầu tiên trên df1 rồi lặp lại, sau đó chạy một hành động trên df2 rồi lặp lại. Phần này đã được chuẩn bị sẵn cho bạn.
  • Xác nhận df1 có được cache hay không.