ComeçarComece gratuitamente

CountingBykeys

Para muitos conjuntos de dados, é importante contar o número de chaves em um conjunto de dados de chave/valor. Por exemplo, contar o número de países onde o produto foi vendido ou mostrar os nomes de bebês mais populares. Neste exercício simples, você usará o Rdd que criou anteriormente e contará o número de chaves exclusivas nesse RDD de pares.

Lembre-se de que você já tem um SparkContext sc e Rdd disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Use countByKey e atribua o resultado a uma variável total.
  • Qual é o tipo de total?
  • Itere sobre o total e imprima as chaves e suas contagens.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Count the unique keys
total = Rdd.____()

# What is the type of total?
print("The type of total is", ____(total))

# Iterate over the total and print the output
for k, v in total.___(): 
  print("key", ____, "has", ____, "counts")
Editar e executar código