Crie um TDM amigável para dendrograma
Agora que você entende as etapas para criar um dendrograma, pode aplicá-las a texto. Mas, antes, é preciso limitar o número de palavras no seu TDM usando removeSparseTerms() do pacote tm. Por que você ajustaria a esparsidade do TDM/DTM?
TDMs e DTMs são esparsos, ou seja, contêm principalmente zeros. Lembre-se de que 1000 tweets podem virar um TDM com mais de 3000 termos! Você não conseguirá interpretar facilmente um dendrograma tão poluído, especialmente se estiver trabalhando com mais texto.
Na maioria dos contextos profissionais, um bom dendrograma é baseado em um TDM com 25 a 70 termos. Ter mais de 70 termos pode deixar a visualização carregada e difícil de entender. Por outro lado, ter menos de 25 termos provavelmente significa que seu dendrograma não mostrará agrupamentos relevantes e informativos.
Ao usar removeSparseTerms(), o parâmetro sparse ajusta o total de termos mantidos no TDM. Quanto mais próximo de 1 for o sparse, mais termos são mantidos. Esse valor representa um corte percentual de zeros para cada termo no TDM.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
tweets_tdm foi criado usando os tweets sobre chardonnay.
- Imprima as dimensões de
tweets_tdmno console. - Crie
tdm1usandoremoveSparseTerms()comsparse = 0.95emtweets_tdm. - Crie
tdm2usandoremoveSparseTerms()comsparse = 0.975emtweets_tdm. - Imprima
tdm1no console para ver quantos termos restaram. - Imprima
tdm2no console para ver quantos termos restaram.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the dimensions of tweets_tdm
___
# Create tdm1
___ <- ___(___, ___)
# Create tdm2
___ <- ___(___, ___)
# Print tdm1
___
# Print tdm2
___