Extração de atributos e análise: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp e goog_cons_corp já foram pré-processados, então agora você pode extrair os atributos que deseja examinar. Como você está usando a abordagem de bag of words, você decidiu criar uma TermDocumentMatrix de bigramas para o corpus de avaliações positivas da Amazon, amzn_pros_corp. A partir disso, você pode rapidamente criar uma wordcloud() para entender quais frases as pessoas associam positivamente a trabalhar na Amazon.

A função abaixo usa RWeka para tokenizar dois termos e é utilizada nos bastidores neste exercício.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Este exercicio faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercicio

Crie amzn_p_tdm como uma TermDocumentMatrix a partir de amzn_pros_corp. Certifique-se de adicionar control = list(tokenize = tokenizer) para que os termos sejam bigramas.
Crie amzn_p_tdm_m a partir de amzn_p_tdm usando a função as.matrix().
Crie amzn_p_freq para obter as frequências dos termos a partir de amzn_p_tdm_m.
Crie uma wordcloud() usando names(amzn_p_freq) como as palavras, amzn_p_freq como suas frequências, e max.words = 25 e color = "blue" para estética.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)

Editar e Executar Código