ReduceBykey y Collect
Una de las transformaciones de pares RDD más populares es reduceByKey()
, que opera con pares clave-valor (k,v) y fusiona los valores para cada clave. En este ejercicio crearás primero un par RDD a partir de una lista de tuplas; a continuación, combinarás los valores con la misma clave y, por último, imprimirás el resultado.
Recuerda que ya tienes sc
de SparkContext disponible en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Crea un par RDD llamado
Rdd
con las tuplas(1,2)
,(3,4)
,(3,6)
y(4,5)
. - Transforma el
Rdd
conreduceByKey()
en el par RDDRdd_Reduced
sumando los valores con la misma clave. - Obtén el contenido del par RDD
Rdd_Reduced
e itera para imprimir la salida.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])
# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)
# Iterate over the result and print the output
for num in Rdd_Reduced.____:
print("Key {} has {} Counts".format(____, num[1]))