MulaiMulai sekarang secara gratis

ReduceBykey dan Collect

Salah satu transformasi pair RDD yang paling populer adalah reduceByKey() yang beroperasi pada pasangan kunci-nilai (k,v) dan menggabungkan nilai untuk setiap kunci. Pada latihan ini, Anda akan terlebih dahulu membuat pair RDD dari daftar tuple, lalu menggabungkan nilai dengan kunci yang sama dan akhirnya mencetak hasilnya.

Ingat, Anda sudah memiliki SparkContext sc yang tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat pair RDD bernama Rdd dengan tuple (1,2),(3,4),(3,6),(4,5).
  • Transformasikan Rdd dengan reduceByKey() menjadi pair RDD Rdd_Reduced dengan menambahkan nilai yang memiliki kunci yang sama.
  • Kumpulkan isi pair RDD Rdd_Reduced dan lakukan iterasi untuk mencetak keluarannya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])

# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)

# Iterate over the result and print the output
for num in Rdd_Reduced.____: 
  print("Key {} has {} Counts".format(____, num[1]))
Edit dan Jalankan Kode