1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDaskによる並列プログラミング

Connected

演習

Parquet から Dask DataFrame を読み込む

第1章では、2005〜2020年のトップヒットを見つけるため、複数ファイルに分割された Spotify データを分析しました。そこで は dask.delayed() とループを使いました。ここでは、Dask DataFrame を使うとこの分析がどれだけ簡単になるかを確認します。

dask.dataframe は dd としてインポート済みです。

指示

100 XP
  • "data/spotify_parquet" にある Parquet データフォルダを読み込みます。
  • DataFrame の .nlargest() メソッドを使って、'popularity' で上位10曲を取得します。
  • 遅延オブジェクトを計算して、pandas の DataFrame に変換します。