BaşlayınÜcretsiz başlayın

Toplama II

Dahili toplama (aggregation) metotlarına daha çok alışman için, flights tablosuyla ilgili birkaç egzersiz daha var!

Unutma, çalışma alanında zaten spark adlı bir SparkSession ve flights adlı bir Spark DataFrame bulunuyor.

Bu egzersiz, kursun bir parçasıdır

PySpark Temelleri

Kursa Göz Atın

Egzersiz talimatları

  • .avg() metodunu kullanarak SEA'den kalkan Delta Airlines uçuşlarının (burada carrier sütununun değeri "DL") ortalama uçuş süresini al. Kalkış yeri origin sütununda tutulur. Sonucu show() ile göster.
  • .sum() metodunu kullanarak, air_time sütunundan duration_hrs adlı bir sütun oluşturarak bu veri kümesindeki tüm uçakların havada geçirdiği toplam saat sayısını al. Sonucu show() ile göster.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Kodu Düzenle ve Çalıştır