BaşlayınÜcretsiz Başlayın

ReduceBykey ve Collect

En popüler çift RDD dönüşümlerinden biri, anahtar-değer (k,v) çiftleri üzerinde çalışan ve her anahtar için değerleri birleştiren reduceByKey()'dir. Bu egzersizde önce bir demet (tuple) listesinden bir çift RDD oluşturacak, sonra aynı anahtara sahip değerleri birleştirecek ve son olarak sonucu yazdıracaksın.

Unutma, çalışma alanında kullanıma hazır bir SparkContext sc zaten mevcut.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • (1,2),(3,4),(3,6),(4,5) demetleriyle Rdd adlı bir çift RDD oluştur.
  • Aynı anahtara sahip değerleri toplayarak Rdd'yi reduceByKey() ile dönüştür ve Rdd_Reduced adlı bir çift RDD elde et.
  • Rdd_Reduced çift RDD'sinin içeriğini topla (collect) ve çıktıyı yazdırmak için üzerinde gezin.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])

# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)

# Iterate over the result and print the output
for num in Rdd_Reduced.____: 
  print("Key {} has {} Counts".format(____, num[1]))
Kodu Düzenle ve Çalıştır