1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Lập trình song song với Dask trong Python

Connected

Bài tập

Đọc Dask DataFrame từ Parquet

Ở Chương 1, bạn đã phân tích một số dữ liệu Spotify được chia nhỏ thành nhiều tệp để tìm các bản hit hàng đầu giai đoạn 2005-2020. Bạn làm điều này bằng cách dùng hàm dask.delayed() và một vòng lặp. Hãy xem phân tích này sẽ dễ hơn bao nhiêu khi dùng Dask DataFrame.

dask.dataframe đã được nhập sẵn với bí danh dd.

Hướng dẫn

100 XP
  • Tải thư mục dữ liệu Parquet nằm tại "data/spotify_parquet".
  • Dùng phương thức .nlargest() của DataFrame để tìm 10 bài hát đứng đầu theo 'popularity'.
  • Chuyển đối tượng delayed thành pandas DataFrame bằng cách tính toán nó.