ReduceBykey e Collect
Um dos pares mais populares de transformações RDD é o reduceByKey()
, que opera em pares de chave e valor (k,v) e mescla os valores de cada chave. Neste exercício, você primeiro criará um RDD de pares a partir de uma lista de tuplas, depois combinará os valores com a mesma chave e, por fim, imprimirá o resultado.
Lembre-se de que você já tem um SparkContext sc
disponível em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções do exercício
- Crie um RDD de pares chamado
Rdd
com as tuplas(1,2)
,(3,4)
,(3,6)
,(4,5)
. - Transforme o
Rdd
comreduceByKey()
em um RDD de paresRdd_Reduced
adicionando os valores com a mesma chave. - Colete o conteúdo do RDD de pares
Rdd_Reduced
e itere para imprimir a saída.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])
# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)
# Iterate over the result and print the output
for num in Rdd_Reduced.____:
print("Key {} has {} Counts".format(____, num[1]))