amzn_cons dendrogram
Parece haver um forte indício de jornadas longas e de um equilíbrio ruim entre vida pessoal e trabalho nas avaliações. Como técnica simples de agrupamento, você decide executar uma clusterização hierárquica e criar um dendrograma para ver como essas frases se conectam.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Crie
amzn_c_tdmcomo umTermDocumentMatrixusandoamzn_cons_corpcomcontrol = list(tokenize = tokenizer). - Imprima
amzn_c_tdmno console. - Crie
amzn_c_tdm2aplicando a funçãoremoveSparseTerms()aamzn_c_tdmcom o argumentosparseigual a.993. - Crie
hc, um objeto de clusterização hierárquica, aninhando a matriz de distânciasdist(amzn_c_tdm2)dentro da funçãohclust(). Certifique-se também de passarmethod = "complete"para a funçãohclust(). - Plote
hcpara visualizar os bigramas agrupados e ver como os conceitos na seção de pontos negativos da Amazon podem levar você a uma conclusão.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Print amzn_c_tdm to the console
___
# Create amzn_c_tdm2 by removing sparse terms
___ <- ___
# Create hc as a cluster of distance values
___ <- ___(___,
___)
# Produce a plot of hc
___