CountingBykeys
Untuk banyak himpunan data, penting untuk menghitung jumlah key dalam himpunan data key/value. Contohnya, menghitung jumlah negara tempat produk dijual atau menampilkan nama bayi terpopuler. Dalam latihan sederhana ini, Anda akan menggunakan Rdd yang telah Anda buat sebelumnya dan menghitung jumlah key unik dalam pair RDD tersebut.
Ingat, Anda sudah memiliki SparkContext sc dan Rdd yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Gunakan
countByKeydan simpan hasilnya ke variabeltotal. - Apa tipe dari
total? - Iterasi
totaldan cetak setiap key beserta hitungannya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Count the unique keys
total = Rdd.____()
# What is the type of total?
print("The type of total is", ____(total))
# Iterate over the total and print the output
for k, v in total.___():
print("key", ____, "has", ____, "counts")