ReduceBykey dan Collect
Salah satu transformasi pair RDD yang paling populer adalah reduceByKey() yang beroperasi pada pasangan kunci-nilai (k,v) dan menggabungkan nilai untuk setiap kunci. Pada latihan ini, Anda akan terlebih dahulu membuat pair RDD dari daftar tuple, lalu menggabungkan nilai dengan kunci yang sama dan akhirnya mencetak hasilnya.
Ingat, Anda sudah memiliki SparkContext sc yang tersedia di workspace Anda.
Latihan ini merupakan bagian dari kursus
Fundamental Big Data dengan PySpark
Instruksi latihan
- Buat pair RDD bernama
Rdddengan tuple(1,2),(3,4),(3,6),(4,5). - Transformasikan
RdddenganreduceByKey()menjadi pair RDDRdd_Reduceddengan menambahkan nilai yang memiliki kunci yang sama. - Kumpulkan isi pair RDD
Rdd_Reduceddan lakukan iterasi untuk mencetak keluarannya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])
# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)
# Iterate over the result and print the output
for num in Rdd_Reduced.____:
print("Key {} has {} Counts".format(____, num[1]))