CountingBykeys
En muchos conjuntos de datos, es importante contar el número de claves de un conjunto de datos clave-valor. Por ejemplo, contar el número de países en los que se vendió el producto o mostrar los nombres de bebé más populares. En este sencillo ejercicio utilizarás el Rdd que creaste anteriormente y contarás el número de claves únicas de ese par RDD.
Recuerda que ya tienes sc y Rdd de SparkContext disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones del ejercicio
countByKeyy asigna el resultado a una variabletotal.- ¿Cuál es el tipo de
total? - Itera en
totale imprime las claves y sus recuentos.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Count the unique keys
total = Rdd.____()
# What is the type of total?
print("The type of total is", ____(total))
# Iterate over the total and print the output
for k, v in total.___():
print("key", ____, "has", ____, "counts")