CountingBykeys
Per molti insiemi di dati è importante contare il numero di chiavi in un dataset chiave/valore. Per esempio, contare il numero di paesi in cui è stato venduto un prodotto o mostrare i nomi dei neonati più popolari. In questo semplice esercizio userai l'Rdd che hai creato in precedenza e conterai il numero di chiavi uniche in quel pair RDD.
Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc e Rdd.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Usa
countByKeye assegna il risultato a una variabiletotal. - Qual è il tipo di
total? - Itera su
totale stampa le chiavi e i rispettivi conteggi.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Count the unique keys
total = Rdd.____()
# What is the type of total?
print("The type of total is", ____(total))
# Iterate over the total and print the output
for k, v in total.___():
print("key", ____, "has", ____, "counts")