MulaiMulai sekarang secara gratis

CountingBykeys

Untuk banyak himpunan data, penting untuk menghitung jumlah key dalam himpunan data key/value. Contohnya, menghitung jumlah negara tempat produk dijual atau menampilkan nama bayi terpopuler. Dalam latihan sederhana ini, Anda akan menggunakan Rdd yang telah Anda buat sebelumnya dan menghitung jumlah key unik dalam pair RDD tersebut.

Ingat, Anda sudah memiliki SparkContext sc dan Rdd yang tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Gunakan countByKey dan simpan hasilnya ke variabel total.
  • Apa tipe dari total?
  • Iterasi total dan cetak setiap key beserta hitungannya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Count the unique keys
total = Rdd.____()

# What is the type of total?
print("The type of total is", ____(total))

# Iterate over the total and print the output
for k, v in total.___(): 
  print("key", ____, "has", ____, "counts")
Edit dan Jalankan Kode