BaşlayınÜcretsiz Başlayın

Birleştirerek özetleme

.min(), .max() ve .count() gibi yaygın toplulaştırma (aggregation) metodlarının tümü GroupedData metodlarıdır. Bunlar, .groupBy() DataFrame metodunu çağırarak oluşturulur. Bunun tam olarak ne anlama geldiğini birkaç egzersizde öğreneceksin. Şimdilik bu fonksiyonları kullanmak için tek yapman gereken bu metodu DataFrame'inde çağırmak. Örneğin bir DataFrame df içinde col sütununun en küçük değerini bulmak için şunu yapabilirsin:

df.groupBy().min("col").show()

Bu, bir GroupedData nesnesi oluşturur (böylece .min() metodunu kullanabilirsin), ardından col içindeki en küçük değeri bulur ve bunu bir DataFrame olarak döndürür.

Artık kendi özetlemelerini yapmaya hazırsın!

SparkSession nesnesi spark ve Spark DataFrame'i flights çalışma alanında hazır.

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • PDX'ten kalkan uçuşlar arasında en kısa (mesafe olarak) uçuşun uzunluğunu, önce .filter() uygulayıp ardından .min() metodunu kullanarak bul. Filtrelemeyi bir SQL stringi geçmeden, sütuna doğrudan referans vererek yap.
  • SEA'den kalkan uçuşlar arasında en uzun (süre olarak) uçuşun uzunluğunu, filter() uygulayıp .max() metodunu kullanarak bul. Filtrelemeyi bir SQL stringi geçmeden, sütuna doğrudan referans vererek yap.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()

# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()
Kodu Düzenle ve Çalıştır