Toplama II
Dahili toplama (aggregation) metotlarına daha çok alışman için, flights tablosuyla ilgili birkaç egzersiz daha var!
Unutma, çalışma alanında zaten spark adlı bir SparkSession ve flights adlı bir Spark DataFrame bulunuyor.
Bu egzersiz, kursun bir parçasıdır
PySpark Temelleri
Egzersiz talimatları
.avg()metodunu kullanarak SEA'den kalkan Delta Airlines uçuşlarının (buradacarriersütununun değeri"DL") ortalama uçuş süresini al. Kalkış yerioriginsütununda tutulur. Sonucushow()ile göster..sum()metodunu kullanarak,air_timesütunundanduration_hrsadlı bir sütun oluşturarak bu veri kümesindeki tüm uçakların havada geçirdiği toplam saat sayısını al. Sonucushow()ile göster.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()