CountingBykeys
Bei vielen Datensätzen ist es wichtig, die Anzahl der Schlüssel in einem Schlüssel/Wert-Datensatz zu zählen. Vielleicht möchte man zum Beispiel die Anzahl der Länder wissen, in denen ein Produkt verkauft wurde, oder die beliebtesten Babynamen anzeigen. In dieser einfachen Übung verwendest du das zuvor erstellte Rdd
-Objekt und zählst die Anzahl der eindeutigen Schlüssel in jenem Paar-RDD.
Zur Erinnerung: Der SparkContext sc
und Rdd
sind bereits im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Zähle nach Schlüssel (
countByKey
) und weise das Ergebnis der Variabletotal
zu. - Welchen Typ hat
total
? - Iteriere über
total
und gib die Schlüssel und ihre Anzahl aus.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Count the unique keys
total = Rdd.____()
# What is the type of total?
print("The type of total is", ____(total))
# Iterate over the total and print the output
for k, v in total.___():
print("key", ____, "has", ____, "counts")