CommencerCommencer gratuitement

Comptage des clés

Pour de nombreux ensembles de données, il est important de compter le nombre de clés dans un ensemble de données clé/valeur. Cela peut être pour compter le nombre de pays où le produit a été vendu ou pour afficher les prénoms de bébé les plus populaires, par exemple. Dans cet exercice simple, vous allez utiliser le Rdd que vous avez créé précédemment et compter le nombre de clés uniques dans ce RDD de paires.

Rappelez-vous qu’un SparkContext sc ainsi qu’un Rdd se trouvent déjà dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Comptez par clé (countByKey) et affectez le résultat à une variable total.
  • Quel est le type du total ?
  • Itérer sur le total et affichez (print) les clés et leur nombre.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Count the unique keys
total = Rdd.____()

# What is the type of total?
print("The type of total is", ____(total))

# Iterate over the total and print the output
for k, v in total.___(): 
  print("key", ____, "has", ____, "counts")
Modifier et exécuter le code