ReduceByKey e Collect

Una delle trasformazioni più usate sui pair RDD è reduceByKey(), che opera su coppie chiave-valore (k,v) e unisce i valori per ciascuna chiave. In questo esercizio creerai prima un pair RDD da una lista di tuple, poi combinerai i valori con la stessa chiave e infine stamperai il risultato.

Ricorda: hai già uno SparkContext sc disponibile nel tuo workspace.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza corso

Istruzioni dell'esercizio

Crea un pair RDD chiamato Rdd con le tuple (1,2),(3,4),(3,6),(4,5).
Trasforma Rdd con reduceByKey() in un pair RDD Rdd_Reduced sommando i valori con la stessa chiave.
Esegui la collect del contenuto del pair RDD Rdd_Reduced e itera per stampare l'output.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])

# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)

# Iterate over the result and print the output
for num in Rdd_Reduced.____: 
  print("Key {} has {} Counts".format(____, num[1]))

Modifica ed esegui il codice