ReduceBykey e Collect

Um dos pares mais populares de transformações RDD é o reduceByKey(), que opera em pares de chave e valor (k,v) e mescla os valores de cada chave. Neste exercício, você primeiro criará um RDD de pares a partir de uma lista de tuplas, depois combinará os valores com a mesma chave e, por fim, imprimirá o resultado.

Lembre-se de que você já tem um SparkContext sc disponível em seu espaço de trabalho.

Este exercicio faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercicio

Crie um RDD de pares chamado Rdd com as tuplas (1,2),(3,4),(3,6),(4,5).
Transforme o Rdd com reduceByKey() em um RDD de pares Rdd_Reduced adicionando os valores com a mesma chave.
Colete o conteúdo do RDD de pares Rdd_Reduced e itere para imprimir a saída.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])

# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)

# Iterate over the result and print the output
for num in Rdd_Reduced.____: 
  print("Key {} has {} Counts".format(____, num[1]))

Editar e Executar Código