1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to Data Engineering

Connected

cvičení

Práce s DataFrame

V předchozím cvičení sis ukázal/a, jak rozdělit úlohu a využít nízkoúrovňové API multiprocessing.Pool pro výpočty na více procesorových jednotkách.

Je důležité tomuto přístupu rozumět na nízké úrovni, ale v praxi tato API přímo používat nebudeš. Pohodlnější způsob, jak paralelizovat operaci apply přes několik skupin, je použít framework dask a jeho abstrakci pandas DataFrame.

DataFrame athlete_events z knihovny pandas je dostupný v tvém pracovním prostoru.

Pokyny 1/2

undefined XP
    1
    2
  • Vytvoř 4 oddíly z DataFrame athletes_events pomocí dd.from_pandas().

Pokud si nepamatuješ parametry funkce dd.from_pandas(), podívej se znovu na snímky nebo zadej do konzole help(dd.from_pandas)!