LoslegenKostenlos loslegen

CountingBykeys

Bei vielen Datensätzen ist es wichtig, die Anzahl der Schlüssel in einem Schlüssel/Wert-Datensatz zu zählen. Vielleicht möchte man zum Beispiel die Anzahl der Länder wissen, in denen ein Produkt verkauft wurde, oder die beliebtesten Babynamen anzeigen. In dieser einfachen Übung verwendest du das zuvor erstellte Rdd-Objekt und zählst die Anzahl der eindeutigen Schlüssel in jenem Paar-RDD.

Zur Erinnerung: Der SparkContext sc und Rdd sind bereits im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Zähle nach Schlüssel (countByKey) und weise das Ergebnis der Variable total zu.
  • Welchen Typ hat total?
  • Iteriere über total und gib die Schlüssel und ihre Anzahl aus.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Count the unique keys
total = Rdd.____()

# What is the type of total?
print("The type of total is", ____(total))

# Iterate over the total and print the output
for k, v in total.___(): 
  print("key", ____, "has", ____, "counts")
Code bearbeiten und ausführen