MulaiMulai sekarang secara gratis

Pengelompokan dan Agregasi II

Selain metode GroupedData yang sudah Anda lihat, terdapat juga metode .agg(). Metode ini memungkinkan Anda meneruskan ekspresi kolom agregat yang menggunakan salah satu fungsi agregasi dari submodul pyspark.sql.functions.

Submodul ini berisi banyak fungsi berguna untuk menghitung hal-hal seperti simpangan baku. Semua fungsi agregasi dalam submodul ini menerima nama kolom dalam tabel GroupedData.

Ingat, sebuah SparkSession bernama spark sudah tersedia di workspace Anda, bersama dengan Spark DataFrame flights. DataFrame terkelompok yang Anda buat pada latihan sebelumnya juga ada di workspace Anda.

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Impor submodul pyspark.sql.functions sebagai F.
  • Buat tabel GroupedData bernama by_month_dest yang dikelompokkan berdasarkan kolom month dan dest. Rujuk kedua kolom tersebut dengan meneruskan kedua string sebagai argumen terpisah.
  • Gunakan metode .avg() pada DataFrame by_month_dest untuk mendapatkan rata-rata dep_delay di setiap bulan untuk setiap tujuan.
  • Temukan simpangan baku dari dep_delay dengan menggunakan metode .agg() dengan fungsi F.stddev().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import pyspark.sql.functions as F
import ____ as F

# Group by month and dest
by_month_dest = flights.groupBy(____)

# Average departure delay by month and destination
by_month_dest.____.show()

# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()
Edit dan Jalankan Kode