SortByKey und Collect
Oft ist es sinnvoll, einen Paar-RDD nach einem Schlüssel zu sortieren (z. B. nach der Anzahl der Wörter, wie später im Kapitel gezeigt). In dieser Übung sortierst du den Paar-RDD Rdd_Reduced
aus der vorherigen Übung in absteigender Reihenfolge und gibst das finale Ergebnis aus.
Zur Erinnerung: Der SparkContext sc
und Rdd_Reduced
sind bereits im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Sortiere den RDD
Rdd_Reduced
anhand des Schlüssels in absteigender Reihenfolge. - Erfasse alle Inhalte und gib das Ergebnis mithilfe einer Schleife aus.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Sort the reduced RDD with the key by descending order
Rdd_Reduced_Sort = Rdd_Reduced.____(ascending=False)
# Iterate over the result and retrieve all the elements of the RDD
for num in Rdd_Reduced_Sort.____():
print("Key {} has {} Counts".format(____, num[1]))