CountingBykeys
En muchos conjuntos de datos, es importante contar el número de claves de un conjunto de datos clave-valor. Por ejemplo, contar el número de países en los que se vendió el producto o mostrar los nombres de bebé más populares. En este sencillo ejercicio utilizarás el Rdd
que creaste anteriormente y contarás el número de claves únicas de ese par RDD.
Recuerda que ya tienes sc
y Rdd
de SparkContext disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
countByKey
y asigna el resultado a una variabletotal
.- ¿Cuál es el tipo de
total
? - Itera en
total
e imprime las claves y sus recuentos.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Count the unique keys
total = Rdd.____()
# What is the type of total?
print("The type of total is", ____(total))
# Iterate over the total and print the output
for k, v in total.___():
print("key", ____, "has", ____, "counts")