BaşlayınÜcretsiz başlayın

Birleştirerek özetleme

.min(), .max() ve .count() gibi yaygın toplulaştırma (aggregation) metodlarının tümü GroupedData metodlarıdır. Bunlar, .groupBy() DataFrame metodunu çağırarak oluşturulur. Bunun tam olarak ne anlama geldiğini birkaç egzersizde öğreneceksin. Şimdilik bu fonksiyonları kullanmak için tek yapman gereken bu metodu DataFrame'inde çağırmak. Örneğin bir DataFrame df içinde col sütununun en küçük değerini bulmak için şunu yapabilirsin:

df.groupBy().min("col").show()

Bu, bir GroupedData nesnesi oluşturur (böylece .min() metodunu kullanabilirsin), ardından col içindeki en küçük değeri bulur ve bunu bir DataFrame olarak döndürür.

Artık kendi özetlemelerini yapmaya hazırsın!

SparkSession nesnesi spark ve Spark DataFrame'i flights çalışma alanında hazır.

Bu egzersiz, kursun bir parçasıdır

PySpark Temelleri

Kursa Göz Atın

Egzersiz talimatları

  • PDX'ten kalkan uçuşlar arasında en kısa (mesafe olarak) uçuşun uzunluğunu, önce .filter() uygulayıp ardından .min() metodunu kullanarak bul. Filtrelemeyi bir SQL stringi geçmeden, sütuna doğrudan referans vererek yap.
  • SEA'den kalkan uçuşlar arasında en uzun (süre olarak) uçuşun uzunluğunu, filter() uygulayıp .max() metodunu kullanarak bul. Filtrelemeyi bir SQL stringi geçmeden, sütuna doğrudan referans vererek yap.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()

# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()
Kodu Düzenle ve Çalıştır