Imprimir frequências de palavras

Depois de combinar os valores (contagens) com a mesma chave (palavra), neste exercício, você retornará as 10 primeiras frequências de palavras. Você poderia ter recuperado todos os elementos de uma vez usando collect(), mas essa é uma prática ruim e não recomendada. RDDs pode ser enorme: você pode ficar sem memória e travar o computador.

E se quisermos retornar as 10 principais palavras? Para isso, primeiro você precisará trocar a chave (palavra) e os valores (contagens) para que as chaves sejam a contagem e o valor seja a palavra. No momento, o site result_RDD tem a chave como elemento 0 e o valor como elemento 1. Depois de trocar a chave e o valor na tupla, você classificará o par RDD com base na chave (contagem). Dessa forma, é fácil classificar o RDD com base na chave, em vez de usar a operação sortByKey no PySpark. Por fim, você retornará as 10 principais palavras com base em suas frequências na classificação RDD.

Você já tem um SparkContext sc e resultRDD disponíveis em seu espaço de trabalho.

Imprima as 10 primeiras palavras e suas frequências no site resultRDD RDD.
Troque as chaves e os valores no site resultRDD.
Classifique as chaves de acordo com a ordem decrescente.
Imprima as 10 palavras mais frequentes e suas frequências a partir da classificação RDD.

Introdução à análise de Big Data com o Spark

Programação no PySpark RDD's

PySpark SQL e DataFrames

Aprendizado de máquina com PySpark MLlib

Ejercicio

Imprimir frequências de palavras

Instrucciones