CountingBykeys
Voor veel gegevenssets is het belangrijk om het aantal keys in een key/value-gegevensset te tellen. Denk bijvoorbeeld aan het aantal landen waar een product is verkocht, of aan het tonen van de populairste babynamen. In deze eenvoudige oefening gebruik je de Rdd die je eerder hebt gemaakt en tel je het aantal unieke keys in die pair RDD.
Onthoud: je hebt al een SparkContext sc en Rdd beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Gebruik
countByKeyen ken het resultaat toe aan de variabeletotal. - Wat is het type van
total? - Itereer over
totalen print de keys en hun aantallen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Count the unique keys
total = Rdd.____()
# What is the type of total?
print("The type of total is", ____(total))
# Iterate over the total and print the output
for k, v in total.___():
print("key", ____, "has", ____, "counts")