Pengelompokan dan Agregasi II
Selain metode GroupedData yang sudah Anda lihat, terdapat juga metode .agg().
Metode ini memungkinkan Anda meneruskan ekspresi kolom agregat yang menggunakan salah satu fungsi agregasi dari submodul pyspark.sql.functions.
Submodul ini berisi banyak fungsi berguna untuk menghitung hal-hal seperti simpangan baku. Semua fungsi agregasi dalam submodul ini menerima nama kolom dalam tabel GroupedData.
Ingat, sebuah SparkSession bernama spark sudah tersedia di workspace Anda, bersama dengan Spark DataFrame flights. DataFrame terkelompok yang Anda buat pada latihan sebelumnya juga ada di workspace Anda.
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Impor submodul
pyspark.sql.functionssebagaiF. - Buat tabel
GroupedDatabernamaby_month_destyang dikelompokkan berdasarkan kolommonthdandest. Rujuk kedua kolom tersebut dengan meneruskan kedua string sebagai argumen terpisah. - Gunakan metode
.avg()pada DataFrameby_month_destuntuk mendapatkan rata-ratadep_delaydi setiap bulan untuk setiap tujuan. - Temukan simpangan baku dari
dep_delaydengan menggunakan metode.agg()dengan fungsiF.stddev().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import pyspark.sql.functions as F
import ____ as F
# Group by month and dest
by_month_dest = flights.groupBy(____)
# Average departure delay by month and destination
by_month_dest.____.show()
# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()