1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Tối ưu hiệu năng nhập tệp

Bạn được giao một bộ dữ liệu lớn để nhập vào một Spark DataFrame. Bạn muốn kiểm thử sự khác biệt về tốc độ nhập bằng cách tách nhỏ tệp.

Bạn có hai loại tệp: departures_full.txt.gz và departures_xxx.txt.gz trong đó xxx là từ 000 - 013. Số lượng dòng được chia đều giữa các tệp.

Hướng dẫn

100 XP
  • Nhập tệp departures_full.txt.gz và các tệp departures_xxx.txt.gz vào các DataFrame riêng biệt.
  • Chạy phép đếm trên mỗi DataFrame và so sánh thời gian chạy.