ReduceBykey ve Collect
En popüler çift RDD dönüşümlerinden biri, anahtar-değer (k,v) çiftleri üzerinde çalışan ve her anahtar için değerleri birleştiren reduceByKey()'dir. Bu egzersizde önce bir demet (tuple) listesinden bir çift RDD oluşturacak, sonra aynı anahtara sahip değerleri birleştirecek ve son olarak sonucu yazdıracaksın.
Unutma, çalışma alanında kullanıma hazır bir SparkContext sc zaten mevcut.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
(1,2),(3,4),(3,6),(4,5)demetleriyleRddadlı bir çift RDD oluştur.- Aynı anahtara sahip değerleri toplayarak
Rdd'yireduceByKey()ile dönüştür veRdd_Reducedadlı bir çift RDD elde et. Rdd_Reducedçift RDD'sinin içeriğini topla (collect) ve çıktıyı yazdırmak için üzerinde gezin.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])
# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)
# Iterate over the result and print the output
for num in Rdd_Reduced.____:
print("Key {} has {} Counts".format(____, num[1]))