ComenzarEmpieza gratis

CountingBykeys

En muchos conjuntos de datos, es importante contar el número de claves de un conjunto de datos clave-valor. Por ejemplo, contar el número de países en los que se vendió el producto o mostrar los nombres de bebé más populares. En este sencillo ejercicio utilizarás el Rdd que creaste anteriormente y contarás el número de claves únicas de ese par RDD.

Recuerda que ya tienes sc y Rdd de SparkContext disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • countByKey y asigna el resultado a una variable total.
  • ¿Cuál es el tipo de total?
  • Itera en total e imprime las claves y sus recuentos.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Count the unique keys
total = Rdd.____()

# What is the type of total?
print("The type of total is", ____(total))

# Iterate over the total and print the output
for k, v in total.___(): 
  print("key", ____, "has", ____, "counts")
Editar y ejecutar código