ComeçarComece de graça

ReduceBykey e Collect

Um dos pares mais populares de transformações RDD é o reduceByKey(), que opera em pares de chave e valor (k,v) e mescla os valores de cada chave. Neste exercício, você primeiro criará um RDD de pares a partir de uma lista de tuplas, depois combinará os valores com a mesma chave e, por fim, imprimirá o resultado.

Lembre-se de que você já tem um SparkContext sc disponível em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

  • Crie um RDD de pares chamado Rdd com as tuplas (1,2),(3,4),(3,6),(4,5).
  • Transforme o Rdd com reduceByKey() em um RDD de pares Rdd_Reduced adicionando os valores com a mesma chave.
  • Colete o conteúdo do RDD de pares Rdd_Reduced e itere para imprimir a saída.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])

# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)

# Iterate over the result and print the output
for num in Rdd_Reduced.____: 
  print("Key {} has {} Counts".format(____, num[1]))
Editar e executar o código