Aan de slagGa gratis aan de slag

CountingBykeys

Voor veel gegevenssets is het belangrijk om het aantal keys in een key/value-gegevensset te tellen. Denk bijvoorbeeld aan het aantal landen waar een product is verkocht, of aan het tonen van de populairste babynamen. In deze eenvoudige oefening gebruik je de Rdd die je eerder hebt gemaakt en tel je het aantal unieke keys in die pair RDD.

Onthoud: je hebt al een SparkContext sc en Rdd beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Gebruik countByKey en ken het resultaat toe aan de variabele total.
  • Wat is het type van total?
  • Itereer over total en print de keys en hun aantallen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Count the unique keys
total = Rdd.____()

# What is the type of total?
print("The type of total is", ____(total))

# Iterate over the total and print the output
for k, v in total.___(): 
  print("key", ____, "has", ____, "counts")
Code bewerken en uitvoeren