IniziaInizia gratis

CountingBykeys

Per molti insiemi di dati è importante contare il numero di chiavi in un dataset chiave/valore. Per esempio, contare il numero di paesi in cui è stato venduto un prodotto o mostrare i nomi dei neonati più popolari. In questo semplice esercizio userai l'Rdd che hai creato in precedenza e conterai il numero di chiavi uniche in quel pair RDD.

Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc e Rdd.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Usa countByKey e assegna il risultato a una variabile total.
  • Qual è il tipo di total?
  • Itera su total e stampa le chiavi e i rispettivi conteggi.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Count the unique keys
total = Rdd.____()

# What is the type of total?
print("The type of total is", ____(total))

# Iterate over the total and print the output
for k, v in total.___(): 
  print("key", ____, "has", ____, "counts")
Modifica ed esegui il codice