ComenzarEmpieza gratis

ReduceBykey y Collect

Una de las transformaciones de pares RDD más populares es reduceByKey(), que opera con pares clave-valor (k,v) y fusiona los valores para cada clave. En este ejercicio crearás primero un par RDD a partir de una lista de tuplas; a continuación, combinarás los valores con la misma clave y, por último, imprimirás el resultado.

Recuerda que ya tienes sc de SparkContext disponible en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea un par RDD llamado Rdd con las tuplas (1,2), (3,4), (3,6) y (4,5).
  • Transforma el Rdd con reduceByKey() en el par RDD Rdd_Reduced sumando los valores con la misma clave.
  • Obtén el contenido del par RDD Rdd_Reduced e itera para imprimir la salida.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])

# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)

# Iterate over the result and print the output
for num in Rdd_Reduced.____: 
  print("Key {} has {} Counts".format(____, num[1]))
Editar y ejecutar código