1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to Data Engineering

Connected

cvičení

Groupby v PySparku

Viděl/a jsi, jak pracovat s frameworkem dask a jeho abstrakcí DataFrame pro různé výpočty. Jak ale zaznělo ve videu, ve světě velkých dat je pro zpracování dat pravděpodobně populárnější volbou Spark.

V tomto cvičení použiješ balíček PySpark pro práci se Spark DataFrame. Data jsou stejná jako v předchozích cvičeních: účastníci olympijských her v letech 1896 až 2016.

Spark DataFrame athlete_events_spark je dostupný v tvém pracovním prostředí.

Metody, které v tomto cvičení použiješ:

  • .printSchema(): vypíše schéma Spark DataFrame.
  • .groupBy(): příkaz pro seskupení při agregaci.
  • .mean(): vypočítá průměr pro každou skupinu.
  • .show(): zobrazí výsledky.

Pokyny

100 XP
  • Zjisti typ athlete_events_spark.
  • Zjisti schéma athlete_events_spark.
  • Vypiš průměrný věk olympioniků seskupený podle roku. Všimni si, že Spark zatím nic nevypočítal. Tomu se říká lazy evaluation.
  • Vezmi předchozí výsledek a zavolej na něm .show() pro výpočet průměrného věku.