CommencerCommencer gratuitement

ReduceBykey et Collect

L'une des transformations de RDD de paires les plus populaires est reduceByKey(), qui opère sur des paires clé-valeur (k,v) et fusionne les valeurs de chaque clé. Dans cet exercice, vous allez d'abord créer un RDD de paires à partir d'une liste de tuples, puis combiner les valeurs avec la même clé, et enfin afficher (print) le résultat.

Rappelez-vous qu'un SparkContext sc se trouve déjà dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Créez un RDD de paires nommé Rdd avec les tuples (1,2),(3,4),(3,6),(4,5).
  • Transformez le Rdd avec reduceByKey() en un RDD de paires Rdd_Reduced en ajoutant les valeurs avec la même clé.
  • Collectez le contenu du RDD de paires Rdd_Reduced et itérez pour afficher la sortie.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create PairRDD Rdd with key value pairs
Rdd = sc.parallelize([____])

# Apply reduceByKey() operation on Rdd
Rdd_Reduced = Rdd.reduceByKey(lambda x, y: ____)

# Iterate over the result and print the output
for num in Rdd_Reduced.____: 
  print("Key {} has {} Counts".format(____, num[1]))
Modifier et exécuter le code