Mulai sekarangMulai gratis

CountingBykeys

Untuk banyak himpunan data, penting untuk menghitung jumlah key dalam himpunan data key/value. Contohnya, menghitung jumlah negara tempat produk dijual atau menampilkan nama bayi terpopuler. Dalam latihan sederhana ini, Anda akan menggunakan Rdd yang telah Anda buat sebelumnya dan menghitung jumlah key unik dalam pair RDD tersebut.

Ingat, Anda sudah memiliki SparkContext sc dan Rdd yang tersedia di workspace Anda.

Latihan ini merupakan bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Instruksi latihan

  • Gunakan countByKey dan simpan hasilnya ke variabel total.
  • Apa tipe dari total?
  • Iterasi total dan cetak setiap key beserta hitungannya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Count the unique keys
total = Rdd.____()

# What is the type of total?
print("The type of total is", ____(total))

# Iterate over the total and print the output
for k, v in total.___(): 
  print("key", ____, "has", ____, "counts")
Edit dan Jalankan Kode