1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Introduction to Data Engineering

Connected

Bài tập

Sử dụng DataFrame

Ở bài tập trước, bạn đã thấy cách chia nhỏ một tác vụ và dùng API cấp thấp multiprocessing.Pool của Python để thực hiện tính toán trên nhiều đơn vị xử lý.

Việc nắm rõ cơ chế cấp thấp là rất quan trọng, nhưng trên thực tế, bạn hầu như không dùng trực tiếp kiểu API này. Một cách tiện hơn để song song hóa thao tác apply trên nhiều nhóm là dùng framework dask và lớp trừu tượng của nó cho pandas DataFrame, chẳng hạn.

pandas DataFrame athlete_events đã có sẵn trong không gian làm việc của bạn.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Tạo 4 phân vùng cho DataFrame athletes_events bằng dd.from_pandas().

Nếu bạn quên các tham số của dd.from_pandas(), hãy xem lại các slide, hoặc gõ help(dd.from_pandas) trong console!