ComeçarComece de graça

Crie um TDM amigável para dendrograma

Agora que você entende as etapas para criar um dendrograma, pode aplicá-las a texto. Mas, antes, é preciso limitar o número de palavras no seu TDM usando removeSparseTerms() do pacote tm. Por que você ajustaria a esparsidade do TDM/DTM?

TDMs e DTMs são esparsos, ou seja, contêm principalmente zeros. Lembre-se de que 1000 tweets podem virar um TDM com mais de 3000 termos! Você não conseguirá interpretar facilmente um dendrograma tão poluído, especialmente se estiver trabalhando com mais texto.

Na maioria dos contextos profissionais, um bom dendrograma é baseado em um TDM com 25 a 70 termos. Ter mais de 70 termos pode deixar a visualização carregada e difícil de entender. Por outro lado, ter menos de 25 termos provavelmente significa que seu dendrograma não mostrará agrupamentos relevantes e informativos.

Ao usar removeSparseTerms(), o parâmetro sparse ajusta o total de termos mantidos no TDM. Quanto mais próximo de 1 for o sparse, mais termos são mantidos. Esse valor representa um corte percentual de zeros para cada termo no TDM.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

tweets_tdm foi criado usando os tweets sobre chardonnay.

  • Imprima as dimensões de tweets_tdm no console.
  • Crie tdm1 usando removeSparseTerms() com sparse = 0.95 em tweets_tdm.
  • Crie tdm2 usando removeSparseTerms() com sparse = 0.975 em tweets_tdm.
  • Imprima tdm1 no console para ver quantos termos restaram.
  • Imprima tdm2 no console para ver quantos termos restaram.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print the dimensions of tweets_tdm
___

# Create tdm1
___ <- ___(___, ___)

# Create tdm2
___ <- ___(___, ___)

# Print tdm1
___

# Print tdm2
___
Editar e executar o código