Comptage des clés
Pour de nombreux ensembles de données, il est important de compter le nombre de clés dans un ensemble de données clé/valeur. Cela peut être pour compter le nombre de pays où le produit a été vendu ou pour afficher les prénoms de bébé les plus populaires, par exemple. Dans cet exercice simple, vous allez utiliser le Rdd
que vous avez créé précédemment et compter le nombre de clés uniques dans ce RDD de paires.
Rappelez-vous qu’un SparkContext sc
ainsi qu’un Rdd
se trouvent déjà dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Comptez par clé (
countByKey
) et affectez le résultat à une variabletotal
. - Quel est le type du
total
? - Itérer sur le
total
et affichez (print) les clés et leur nombre.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Count the unique keys
total = Rdd.____()
# What is the type of total?
print("The type of total is", ____(total))
# Iterate over the total and print the output
for k, v in total.___():
print("key", ____, "has", ____, "counts")