ReduceBykey y Collect

Una de las transformaciones de pares RDD más populares es reduceByKey(), que opera con pares clave-valor (k,v) y fusiona los valores para cada clave. En este ejercicio crearás primero un par RDD a partir de una lista de tuplas; a continuación, combinarás los valores con la misma clave y, por último, imprimirás el resultado.

Recuerda que ya tienes sc de SparkContext disponible en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Crea un par RDD llamado Rdd con las tuplas (1,2), (3,4), (3,6) y (4,5).
Transforma el Rdd con reduceByKey() en el par RDD Rdd_Reduced sumando los valores con la misma clave.
Obtén el contenido del par RDD Rdd_Reduced e itera para imprimir la salida.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])

# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)

# Iterate over the result and print the output
for num in Rdd_Reduced.____: 
  print("Key {} has {} Counts".format(____, num[1]))

Editar y ejecutar código