1. Nauka
  2. /
  3. Kursy
  4. /
  5. Programowanie równoległe z Dask w Pythonie

Connected

ćwiczenie

Najpopularniejsze piosenki

Masz jeszcze jedno zadanie do wykonania na danych Spotify – znalezienie 10 najpopularniejszych piosenek ze wszystkich dostępnych lat. Algorytm, którego użyjesz, polega na wyznaczeniu top 10 piosenek dla każdego roku, a następnie połączeniu tych wyników i wyłonieniu top 10 spośród wszystkich top 10.

Poniższa funkcja, która znajduje 10 najpopularniejszych piosenek w DataFrame, została już przygotowana i jest dostępna w twoim środowisku.

def top_10_most_popular(df):
  return df.nlargest(n=10, columns='popularity')

dask oraz funkcja delayed() zostały już zaimportowane. pandas jest dostępny jako pd. Lista nazw plików jest dostępna w twoim środowisku jako filenames, a rok odpowiadający każdemu plikowi jest przechowywany na liście years.

Instrukcje

100 XP
  • Dla każdego pliku znajdź 10 najpopularniejszych piosenek z danego roku, korzystając z funkcji top_10_most_popular().
  • Oblicz listę top 10 z każdego roku i wybierz pierwszy element zwróconej krotki.
  • Uruchom funkcję top_10_most_popular(), aby znaleźć 10 najpopularniejszych piosenek w połączonym DataFrame.