Agregasi II
Agar Anda lebih akrab dengan lebih banyak metode agregasi bawaan, berikut beberapa latihan lagi yang melibatkan tabel flights!
Ingat, sebuah SparkSession bernama spark sudah tersedia di ruang kerja Anda, bersama dengan Spark DataFrame flights.
Latihan ini merupakan bagian dari kursus
Dasar-Dasar PySpark
Instruksi latihan
- Gunakan metode
.avg()untuk mendapatkan rata-rata waktu terbang penerbangan Delta Airlines (di mana kolomcarrierbernilai"DL") yang berangkat dari SEA. Tempat keberangkatan disimpan di kolomorigin.show()hasilnya. - Gunakan metode
.sum()untuk mendapatkan total jumlah jam semua pesawat dalam himpunan data ini berada di udara dengan membuat kolom bernamaduration_hrsdari kolomair_time.show()hasilnya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()