Associação de palavras
Como esperado, você vê tópicos semelhantes ao longo do dendrograma. Voltando aos comentários positivos, você decide examinar as principais frases que apareceram nas nuvens de palavras. Você espera encontrar termos associados usando a função findAssocs() do tm. Agora que você sabe sobre jornadas longas e falta de equilíbrio entre trabalho e vida pessoal, quer verificar se há algo surpreendente.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
O corpus amzn_pros_corp foi limpo usando as funções personalizadas como antes.
- Construa uma TDM chamada
amzn_p_tdma partir deamzn_pros_corpecontrol = list(tokenize = tokenizer). - Crie
amzn_p_mconvertendoamzn_p_tdmem uma matrix. - Crie
amzn_p_freqaplicandorowSums()aamzn_p_m. - Crie
term_frequencyusandosort()emamzn_p_freqjunto com o argumentodecreasing = TRUE. - Examine os 5 primeiros bigramas usando
term_frequency[1:5]. - Pode ser surpreendente ver "fast paced" como um dos principais termos, pois pode ter conotação negativa relacionada a "long hours". Veja os termos mais associados a "fast paced". Use
findAssocs()emamzn_p_tdmpara examinar"fast paced"com um cutoff de0.2.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Create term_frequency
___ <- ___
# Print the 5 most common terms
___
# Find associations with fast-paced
___