Gruplama ve Birleştirme II
Daha önce gördüğün GroupedData metodlarına ek olarak bir de .agg() metodu var.
Bu metod, pyspark.sql.functions alt modülündeki tüm toplulaştırma (aggregate) fonksiyonlarını kullanan bir toplulaştırma sütunu ifadesi geçirmeni sağlar.
Bu alt modül, standart sapma gibi değerleri hesaplamak için birçok kullanışlı fonksiyon içerir. Bu alt modüldeki tüm toplulaştırma fonksiyonları, bir GroupedData tablosunda bir sütun adını argüman olarak alır.
Unutma, çalışma alanında spark adlı bir SparkSession ve flights adlı Spark DataFrame'i zaten var. Önceki egzersizde oluşturduğun gruplandırılmış DataFrame'ler de çalışma alanında bulunuyor.
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırEgzersiz talimatları
pyspark.sql.functionsalt modülünüFolarak içe aktar.- Hem
monthhem dedestsütunlarına göre gruplanmışby_month_destadlı birGroupedDatatablosu oluştur. İki sütuna, her birini ayrı birer string argümanı olarak geçirerek referans ver. - Her varış noktası için her ay içindeki ortalama
dep_delaydeğerini elde etmek üzereby_month_destDataFrame'i üzerinde.avg()metodunu kullan. dep_delayiçin standart sapmayı bulmak üzereF.stddev()fonksiyonunu.agg()metodu ile kullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import pyspark.sql.functions as F
import ____ as F
# Group by month and dest
by_month_dest = flights.groupBy(____)
# Average departure delay by month and destination
by_month_dest.____.show()
# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()