BaşlayınÜcretsiz Başlayın

Toplama II

Dahili toplama (aggregation) metotlarına daha çok alışman için, flights tablosuyla ilgili birkaç egzersiz daha var!

Unutma, çalışma alanında zaten spark adlı bir SparkSession ve flights adlı bir Spark DataFrame bulunuyor.

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • .avg() metodunu kullanarak SEA'den kalkan Delta Airlines uçuşlarının (burada carrier sütununun değeri "DL") ortalama uçuş süresini al. Kalkış yeri origin sütununda tutulur. Sonucu show() ile göster.
  • .sum() metodunu kullanarak, air_time sütunundan duration_hrs adlı bir sütun oluşturarak bu veri kümesindeki tüm uçakların havada geçirdiği toplam saat sayısını al. Sonucu show() ile göster.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Kodu Düzenle ve Çalıştır