ReduceBykey ve Collect
En popüler çift RDD dönüşümlerinden biri, anahtar-değer (k,v) çiftleri üzerinde çalışan ve her anahtar için değerleri birleştiren reduceByKey()'dir. Bu egzersizde önce bir demet (tuple) listesinden bir çift RDD oluşturacak, sonra aynı anahtara sahip değerleri birleştirecek ve son olarak sonucu yazdıracaksın.
Unutma, çalışma alanında kullanıma hazır bir SparkContext sc zaten mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
(1,2),(3,4),(3,6),(4,5)demetleriyleRddadlı bir çift RDD oluştur.- Aynı anahtara sahip değerleri toplayarak
Rdd'yireduceByKey()ile dönüştür veRdd_Reducedadlı bir çift RDD elde et. Rdd_Reducedçift RDD'sinin içeriğini topla (collect) ve çıktıyı yazdırmak için üzerinde gezin.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])
# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)
# Iterate over the result and print the output
for num in Rdd_Reduced.____:
print("Key {} has {} Counts".format(____, num[1]))