MulaiMulai sekarang secara gratis

Agregasi II

Agar Anda lebih akrab dengan lebih banyak metode agregasi bawaan, berikut beberapa latihan lagi yang melibatkan tabel flights!

Ingat, sebuah SparkSession bernama spark sudah tersedia di ruang kerja Anda, bersama dengan Spark DataFrame flights.

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Gunakan metode .avg() untuk mendapatkan rata-rata waktu terbang penerbangan Delta Airlines (di mana kolom carrier bernilai "DL") yang berangkat dari SEA. Tempat keberangkatan disimpan di kolom origin. show() hasilnya.
  • Gunakan metode .sum() untuk mendapatkan total jumlah jam semua pesawat dalam himpunan data ini berada di udara dengan membuat kolom bernama duration_hrs dari kolom air_time. show() hasilnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Edit dan Jalankan Kode