Extração de atributos e análise: amzn_cons
Agora você decide comparar isso com o corpus amzn_cons_corp em outra TDM de bigramas. Claro, você espera ver algumas frases diferentes na sua nuvem de palavras.
Mais uma vez, você vai usar esta função personalizada para extrair seus atributos de bigramas para a visualização:
tokenizer <- function(x)
NGramTokenizer(x, Weka_control(min = 2, max = 2))
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Crie
amzn_c_tdmconvertendoamzn_cons_corpem umTermDocumentMatrixe incorporando a função de bigramascontrol = list(tokenize = tokenizer). - Crie
amzn_c_tdm_mcomo uma versão matricial deamzn_c_tdm. - Crie
amzn_c_frequsandorowSums()para obter as frequências dos termos a partir deamzn_c_tdm_m. - Crie uma
wordcloud()usandonames(amzn_c_freq)e os valoresamzn_c_freq. Use também os argumentosmax.words = 25ecolor = "red".
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Create amzn_c_tdm_m
___ <- ___
# Create amzn_c_freq
___ <- ___
# Plot a word cloud of negative Amazon bigrams
___