1. Учиться
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶDaskによる並列プログラミング

Connected

Exercise

最も人気のある楽曲

この Spotify データでもう一つ行うタスクは、利用可能なすべての年を通して最も人気のある楽曲トップ10を求めることです。必要なアルゴリズムは、各年ごとにトップ10の楽曲を算出し、それらを結合して「トップ10同士」から最終的なトップ10を求める、という手順です。

以下の関数は、DataFrame 内のトップ10の楽曲を見つけるもので、すでに用意され環境内で利用できます。

def top_10_most_popular(df):
  return df.nlargest(n=10, columns='popularity')

dask と delayed() 関数はインポート済みです。pandas は pd としてインポートされています。ファイル名のリストは filenames、各ファイルの年は years というリストに格納され、いずれも環境内で利用できます。

Инструкции

100 XP
  • 各ファイルについて、top_10_most_popular() 関数を使ってその年のトップ10の楽曲を求めてください。
  • 各年のトップ10のリストを計算し、得られるタプルの最初の要素を取り出してください。
  • 連結した DataFrame に対して top_10_most_popular() 関数を実行し、全体のトップ10の楽曲を求めてください。