CountingBykeys
Para muitos conjuntos de dados, é importante contar o número de chaves em um conjunto de dados de chave/valor. Por exemplo, contar o número de países onde o produto foi vendido ou mostrar os nomes de bebês mais populares. Neste exercício simples, você usará o Rdd
que criou anteriormente e contará o número de chaves exclusivas nesse RDD de pares.
Lembre-se de que você já tem um SparkContext sc
e Rdd
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Use
countByKey
e atribua o resultado a uma variáveltotal
. - Qual é o tipo de
total
? - Itere sobre o
total
e imprima as chaves e suas contagens.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Count the unique keys
total = Rdd.____()
# What is the type of total?
print("The type of total is", ____(total))
# Iterate over the total and print the output
for k, v in total.___():
print("key", ____, "has", ____, "counts")