ComeçarComece de graça

amzn_cons dendrogram

Parece haver um forte indício de jornadas longas e de um equilíbrio ruim entre vida pessoal e trabalho nas avaliações. Como técnica simples de agrupamento, você decide executar uma clusterização hierárquica e criar um dendrograma para ver como essas frases se conectam.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

  • Crie amzn_c_tdm como um TermDocumentMatrix usando amzn_cons_corp com control = list(tokenize = tokenizer).
  • Imprima amzn_c_tdm no console.
  • Crie amzn_c_tdm2 aplicando a função removeSparseTerms() a amzn_c_tdm com o argumento sparse igual a .993.
  • Crie hc, um objeto de clusterização hierárquica, aninhando a matriz de distâncias dist(amzn_c_tdm2) dentro da função hclust(). Certifique-se também de passar method = "complete" para a função hclust().
  • Plote hc para visualizar os bigramas agrupados e ver como os conceitos na seção de pontos negativos da Amazon podem levar você a uma conclusão.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___
Editar e executar o código