Toplama II
Dahili toplama (aggregation) metotlarına daha çok alışman için, flights tablosuyla ilgili birkaç egzersiz daha var!
Unutma, çalışma alanında zaten spark adlı bir SparkSession ve flights adlı bir Spark DataFrame bulunuyor.
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırEgzersiz talimatları
.avg()metodunu kullanarak SEA'den kalkan Delta Airlines uçuşlarının (buradacarriersütununun değeri"DL") ortalama uçuş süresini al. Kalkış yerioriginsütununda tutulur. Sonucushow()ile göster..sum()metodunu kullanarak,air_timesütunundanduration_hrsadlı bir sütun oluşturarak bu veri kümesindeki tüm uçakların havada geçirdiği toplam saat sayısını al. Sonucushow()ile göster.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()