CommencerCommencer gratuitement

SortByKey et Collect

Il est souvent utile de trier la paire RDD en fonction de la clé (par exemple le nombre de mots, que vous verrez plus loin dans le chapitre). Dans cet exercice, vous allez trier par ordre décroissant le RDD de paires Rdd_Reduced que vous avez créé dans l'exercice précédent et afficher le résultat final.

Rappelez-vous qu’un SparkContext sc ainsi qu’un Rdd_Reduced se trouvent déjà dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Triez le RDD Rdd_Reduced à l'aide de la clé dans l'ordre décroissant.
  • Collectez le contenu et itérez pour afficher le résultat.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Sort the reduced RDD with the key by descending order
Rdd_Reduced_Sort = Rdd_Reduced.____(ascending=False)

# Iterate over the result and retrieve all the elements of the RDD
for num in Rdd_Reduced_Sort.____():
  print("Key {} has {} Counts".format(____, num[1]))
Modifier et exécuter le code