1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Parallel Programming with Dask in Python

Connected

cvičení

Řetězení operací

Teď, když máš data načtená a vyčištěná, můžeš se pustit do analýzy. Prvním úkolem je prozkoumat data o datech narození politiků. Data narození jsou uložena jako řetězce ve formátu 'YYYY-MM-DD'. První 4 znaky řetězce představují rok.

Filtrovaný Dask bag vytvořený v předchozím cvičení, filtered_bag, je dostupný v tvém prostředí.

Pokyny

100 XP
  • Pomocí metody .pluck() extrahuj z bagu řetězce 'birth_date'.
  • Napiš lambda funkci, která z řetězců 'birth_date' vytáhne řetězec roku a převede ho na celé číslo.
  • Pomocí nového bagu birth_year_bag vypočítej minimální, maximální a průměrný rok narození.
  • K efektivnímu výpočtu všech tří agregátů použij funkci dask.compute().