Groupby v PySparku

Viděl/a jsi, jak pracovat s frameworkem dask a jeho abstrakcí DataFrame pro různé výpočty. Jak ale zaznělo ve videu, ve světě velkých dat je pro zpracování dat pravděpodobně populárnější volbou Spark.

V tomto cvičení použiješ balíček PySpark pro práci se Spark DataFrame. Data jsou stejná jako v předchozích cvičeních: účastníci olympijských her v letech 1896 až 2016.

Spark DataFrame athlete_events_spark je dostupný v tvém pracovním prostředí.