LoslegenKostenlos loslegen

SortByKey und Collect

Oft ist es sinnvoll, einen Paar-RDD nach einem Schlüssel zu sortieren (z. B. nach der Anzahl der Wörter, wie später im Kapitel gezeigt). In dieser Übung sortierst du den Paar-RDD Rdd_Reduced aus der vorherigen Übung in absteigender Reihenfolge und gibst das finale Ergebnis aus.

Zur Erinnerung: Der SparkContext sc und Rdd_Reduced sind bereits im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Sortiere den RDD Rdd_Reduced anhand des Schlüssels in absteigender Reihenfolge.
  • Erfasse alle Inhalte und gib das Ergebnis mithilfe einer Schleife aus.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Sort the reduced RDD with the key by descending order
Rdd_Reduced_Sort = Rdd_Reduced.____(ascending=False)

# Iterate over the result and retrieve all the elements of the RDD
for num in Rdd_Reduced_Sort.____():
  print("Key {} has {} Counts".format(____, num[1]))
Code bearbeiten und ausführen