Extração de atributos e análise: amzn_pros
amzn_pros_corp, amzn_cons_corp, goog_pros_corp e goog_cons_corp já foram pré-processados, então agora você pode extrair os atributos que deseja examinar. Como você está usando a abordagem de bag of words, você decidiu criar uma TermDocumentMatrix de bigramas para o corpus de avaliações positivas da Amazon, amzn_pros_corp. A partir disso, você pode rapidamente criar uma wordcloud() para entender quais frases as pessoas associam positivamente a trabalhar na Amazon.
A função abaixo usa RWeka para tokenizar dois termos e é utilizada nos bastidores neste exercício.
tokenizer <- function(x) {
NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Crie
amzn_p_tdmcomo umaTermDocumentMatrixa partir deamzn_pros_corp. Certifique-se de adicionarcontrol = list(tokenize = tokenizer)para que os termos sejam bigramas. - Crie
amzn_p_tdm_ma partir deamzn_p_tdmusando a funçãoas.matrix(). - Crie
amzn_p_freqpara obter as frequências dos termos a partir deamzn_p_tdm_m. - Crie uma
wordcloud()usandonames(amzn_p_freq)como as palavras,amzn_p_freqcomo suas frequências, emax.words = 25ecolor = "blue"para estética.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_tdm_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Plot a word cloud using amzn_p_freq values
___(___)