CountingBykeys
Untuk banyak himpunan data, penting untuk menghitung jumlah key dalam himpunan data key/value. Contohnya, menghitung jumlah negara tempat produk dijual atau menampilkan nama bayi terpopuler. Dalam latihan sederhana ini, Anda akan menggunakan Rdd yang telah Anda buat sebelumnya dan menghitung jumlah key unik dalam pair RDD tersebut.
Ingat, Anda sudah memiliki SparkContext sc dan Rdd yang tersedia di workspace Anda.
Latihan ini merupakan bagian dari kursus
Fundamental Big Data dengan PySpark
Instruksi latihan
- Gunakan
countByKeydan simpan hasilnya ke variabeltotal. - Apa tipe dari
total? - Iterasi
totaldan cetak setiap key beserta hitungannya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Count the unique keys
total = Rdd.____()
# What is the type of total?
print("The type of total is", ____(total))
# Iterate over the total and print the output
for k, v in total.___():
print("key", ____, "has", ____, "counts")