Agregasi II
Agar Anda lebih akrab dengan lebih banyak metode agregasi bawaan, berikut beberapa latihan lagi yang melibatkan tabel flights!
Ingat, sebuah SparkSession bernama spark sudah tersedia di ruang kerja Anda, bersama dengan Spark DataFrame flights.
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Gunakan metode
.avg()untuk mendapatkan rata-rata waktu terbang penerbangan Delta Airlines (di mana kolomcarrierbernilai"DL") yang berangkat dari SEA. Tempat keberangkatan disimpan di kolomorigin.show()hasilnya. - Gunakan metode
.sum()untuk mendapatkan total jumlah jam semua pesawat dalam himpunan data ini berada di udara dengan membuat kolom bernamaduration_hrsdari kolomair_time.show()hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()