ComeçarComece de graça

Extração de atributos e análise: amzn_cons

Agora você decide comparar isso com o corpus amzn_cons_corp em outra TDM de bigramas. Claro, você espera ver algumas frases diferentes na sua nuvem de palavras.

Mais uma vez, você vai usar esta função personalizada para extrair seus atributos de bigramas para a visualização:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

  • Crie amzn_c_tdm convertendo amzn_cons_corp em um TermDocumentMatrix e incorporando a função de bigramas control = list(tokenize = tokenizer).
  • Crie amzn_c_tdm_m como uma versão matricial de amzn_c_tdm.
  • Crie amzn_c_freq usando rowSums() para obter as frequências dos termos a partir de amzn_c_tdm_m.
  • Crie uma wordcloud() usando names(amzn_c_freq) e os valores amzn_c_freq. Use também os argumentos max.words = 25 e color = "red".

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___
Editar e executar o código