SortByKey et Collect
Il est souvent utile de trier la paire RDD en fonction de la clé (par exemple le nombre de mots, que vous verrez plus loin dans le chapitre). Dans cet exercice, vous allez trier par ordre décroissant le RDD de paires Rdd_Reduced
que vous avez créé dans l'exercice précédent et afficher le résultat final.
Rappelez-vous qu’un SparkContext sc
ainsi qu’un Rdd_Reduced
se trouvent déjà dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Triez le RDD
Rdd_Reduced
à l'aide de la clé dans l'ordre décroissant. - Collectez le contenu et itérez pour afficher le résultat.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Sort the reduced RDD with the key by descending order
Rdd_Reduced_Sort = Rdd_Reduced.____(ascending=False)
# Iterate over the result and retrieve all the elements of the RDD
for num in Rdd_Reduced_Sort.____():
print("Key {} has {} Counts".format(____, num[1]))