BaşlayınÜcretsiz Başlayın

Gruplama ve Birleştirme II

Daha önce gördüğün GroupedData metodlarına ek olarak bir de .agg() metodu var. Bu metod, pyspark.sql.functions alt modülündeki tüm toplulaştırma (aggregate) fonksiyonlarını kullanan bir toplulaştırma sütunu ifadesi geçirmeni sağlar.

Bu alt modül, standart sapma gibi değerleri hesaplamak için birçok kullanışlı fonksiyon içerir. Bu alt modüldeki tüm toplulaştırma fonksiyonları, bir GroupedData tablosunda bir sütun adını argüman olarak alır.

Unutma, çalışma alanında spark adlı bir SparkSession ve flights adlı Spark DataFrame'i zaten var. Önceki egzersizde oluşturduğun gruplandırılmış DataFrame'ler de çalışma alanında bulunuyor.

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • pyspark.sql.functions alt modülünü F olarak içe aktar.
  • Hem month hem de dest sütunlarına göre gruplanmış by_month_dest adlı bir GroupedData tablosu oluştur. İki sütuna, her birini ayrı birer string argümanı olarak geçirerek referans ver.
  • Her varış noktası için her ay içindeki ortalama dep_delay değerini elde etmek üzere by_month_dest DataFrame'i üzerinde .avg() metodunu kullan.
  • dep_delay için standart sapmayı bulmak üzere F.stddev() fonksiyonunu .agg() metodu ile kullan.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import pyspark.sql.functions as F
import ____ as F

# Group by month and dest
by_month_dest = flights.groupBy(____)

# Average departure delay by month and destination
by_month_dest.____.show()

# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()
Kodu Düzenle ve Çalıştır