1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Seskupování a agregace II

Kromě metod GroupedData, které už znáš, existuje také metoda .agg(). Ta ti umožňuje předat výraz s agregační funkcí z submodulu pyspark.sql.functions.

Tento submodul obsahuje spoustu užitečných funkcí, například pro výpočet směrodatných odchylek. Všechny agregační funkce v tomto submodulu přijímají název sloupce v tabulce GroupedData.

Pamatuj, že v tvém pracovním prostředí je k dispozici SparkSession pojmenovaná spark i Spark DataFrame flights. K dispozici jsou také seskupené DataFramy, které jsi vytvořil/a v předchozím cvičení.

Pokyny

100 XP
  • Importuj submodul pyspark.sql.functions jako F.
  • Vytvoř tabulku GroupedData s názvem by_month_dest seskupenou podle sloupců month i dest. Na oba sloupce odkazuj tak, že předáš oba řetězce jako samostatné argumenty.
  • Použij metodu .avg() na DataFrame by_month_dest a zjisti průměrné dep_delay pro každý měsíc a každé místo určení.
  • Zjisti směrodatnou odchylku sloupce dep_delay pomocí metody .agg() s funkcí F.stddev().