1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Seskupování a agregace I

Jednou z věcí, díky které je agregace tak mocná, je možnost pracovat se skupinami. PySpark má pro seskupené datové rámce celou samostatnou třídu: pyspark.sql.GroupedData, se kterou ses setkal/a v posledních dvou cvičeních.

Naučil/a ses vytvořit seskupený DataFrame voláním metody .groupBy() na DataFrame bez argumentů.

Teď uvidíš, že když do metody .groupBy() předáš název jednoho nebo více sloupců, budou se agregační metody chovat stejně jako při použití příkazu GROUP BY v SQL dotazu!

Nezapomeň, že ve svém pracovním prostředí máš k dispozici SparkSession s názvem spark a také Spark DataFrame flights.

Pokyny

100 XP
  • Vytvoř DataFrame s názvem by_plane, který je seskupený podle sloupce tailnum.
  • Použij metodu .count() bez argumentů k počítání letů každého letadla.
  • Vytvoř DataFrame s názvem by_origin, který je seskupený podle sloupce origin.
  • Pomocí metody .avg() na sloupci air_time zjisti průměrnou dobu letu z PDX a SEA.