1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Parallel Programming with Dask in Python

Connected

cvičení

Načítání Dask DataFrames z formátu Parquet

V 1. kapitole jsi analyzoval/a data ze Spotify rozdělená do více souborů a hledal/a nejpopulárnější hity z let 2005–2020. Tehdy jsi k tomu použil/a funkci dask.delayed() a smyčku. Teď se podíváme, o kolik jednodušší je stejná analýza s Dask DataFrames.

dask.dataframe je už naimportovaný jako dd.

Pokyny

100 XP
  • Načti složku s daty ve formátu Parquet uloženou v "data/spotify_parquet".
  • Pomocí metody .nlargest() najdi 10 nejpopulárnějších písní podle sloupce 'popularity'.
  • Převeď odložený objekt na pandas DataFrame pomocí výpočtu.