Mulai sekarangMulai gratis

Agregasi II

Agar Anda lebih akrab dengan lebih banyak metode agregasi bawaan, berikut beberapa latihan lagi yang melibatkan tabel flights!

Ingat, sebuah SparkSession bernama spark sudah tersedia di ruang kerja Anda, bersama dengan Spark DataFrame flights.

Latihan ini merupakan bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Instruksi latihan

  • Gunakan metode .avg() untuk mendapatkan rata-rata waktu terbang penerbangan Delta Airlines (di mana kolom carrier bernilai "DL") yang berangkat dari SEA. Tempat keberangkatan disimpan di kolom origin. show() hasilnya.
  • Gunakan metode .sum() untuk mendapatkan total jumlah jam semua pesawat dalam himpunan data ini berada di udara dengan membuat kolom bernama duration_hrs dari kolom air_time. show() hasilnya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Edit dan Jalankan Kode