1. 학습
  2. /
  3. 강의
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

연습 문제

Tối ưu hiệu năng nhập tệp

Bạn được giao một bộ dữ liệu lớn để nhập vào một Spark DataFrame. Bạn muốn kiểm thử sự khác biệt về tốc độ nhập bằng cách tách nhỏ tệp.

Bạn có hai loại tệp: departures_full.txt.gz và departures_xxx.txt.gz trong đó xxx là từ 000 - 013. Số lượng dòng được chia đều giữa các tệp.

지침

100 XP
  • Nhập tệp departures_full.txt.gz và các tệp departures_xxx.txt.gz vào các DataFrame riêng biệt.
  • Chạy phép đếm trên mỗi DataFrame và so sánh thời gian chạy.