1. Learn
  2. /
  3. Courses
  4. /
  5. Programowanie równoległe z Dask w Pythonie

Connected

Exercise

Wczytywanie Dask DataFrames z plików Parquet

W rozdziale 1. analizowałeś dane Spotify podzielone na wiele plików, aby znaleźć największe hity z lat 2005–2020. Do tego celu użyłeś funkcji dask.delayed() i pętli. Teraz sprawdź, o ile prostsze staje się to zadanie dzięki Dask DataFrames.

dask.dataframe jest już zaimportowany jako dd.

Instructions

100 XP
  • Wczytaj folder z danymi Parquet znajdującymi się pod ścieżką "data/spotify_parquet".
  • Użyj metody .nlargest() na DataFrame, aby znaleźć 10 piosenek z najwyższą wartością kolumny 'popularity'.
  • Przekształć opóźniony obiekt w pandas DataFrame, wywołując jego obliczenie.