SortByKey en Collect
Het is vaak handig om een pair RDD op de sleutel te sorteren (bijvoorbeeld bij word count, waar je later in dit hoofdstuk mee aan de slag gaat). In deze oefening sorteer je de pair RDD Rdd_Reduced die je in de vorige oefening hebt gemaakt in aflopende volgorde en print je de uiteindelijke output.
Onthoud: je hebt al een SparkContext sc en Rdd_Reduced in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Sorteer de RDD
Rdd_Reducedop de sleutel in aflopende volgorde. - Collect de inhoud en itereer om de output te printen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Sort the reduced RDD with the key by descending order
Rdd_Reduced_Sort = Rdd_Reduced.____(ascending=False)
# Iterate over the result and retrieve all the elements of the RDD
for num in Rdd_Reduced_Sort.____():
print("Key {} has {} Counts".format(____, num[1]))