1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Bộ nhớ đệm (cache) một DataFrame

Bạn được giao một nhiệm vụ cần chạy nhiều thao tác phân tích trên một DataFrame. Bạn biết rằng việc dùng bộ nhớ đệm (caching) có thể cải thiện hiệu năng khi tái sử dụng các DataFrame và muốn áp dụng nó.

Bạn sẽ làm việc với một tập dữ liệu mới gồm thông tin chuyến bay cất cánh. Dữ liệu có thể bị lặp và cần được loại bỏ trùng lặp.

DataFrame departures_df đã được định nghĩa, nhưng chưa có thao tác nào được thực thi.

Hướng dẫn

100 XP
  • Đưa các hàng duy nhất của DataFrame departures_df vào bộ nhớ đệm (cache).
  • Thực hiện truy vấn đếm (count) trên departures_df, ghi nhận thời gian chạy.
  • Đếm lại các hàng, ghi nhận sự khác biệt về thời gian khi DataFrame đã được cache.