ReduceBykey dan Collect
Salah satu transformasi pair RDD yang paling populer adalah reduceByKey() yang beroperasi pada pasangan kunci-nilai (k,v) dan menggabungkan nilai untuk setiap kunci. Pada latihan ini, Anda akan terlebih dahulu membuat pair RDD dari daftar tuple, lalu menggabungkan nilai dengan kunci yang sama dan akhirnya mencetak hasilnya.
Ingat, Anda sudah memiliki SparkContext sc yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat pair RDD bernama
Rdddengan tuple(1,2),(3,4),(3,6),(4,5). - Transformasikan
RdddenganreduceByKey()menjadi pair RDDRdd_Reduceddengan menambahkan nilai yang memiliki kunci yang sama. - Kumpulkan isi pair RDD
Rdd_Reduceddan lakukan iterasi untuk mencetak keluarannya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])
# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)
# Iterate over the result and print the output
for num in Rdd_Reduced.____:
print("Key {} has {} Counts".format(____, num[1]))