Juntando tudo: um dendrograma baseado em texto
É hora de colocar suas habilidades em prática e criar seu primeiro dendrograma baseado em texto. Lembre-se: dendrogramas reduzem informações para ajudar você a interpretar os dados. Isso é parecido com uma média, que diz algo, mas não tudo, sobre uma população. Ambos podem ser enganosos. Em textos, muitas vezes surgem vários clusters sem sentido, mas alguns clusters valiosos também podem aparecer.
Uma particularidade dos objetos TDM e DTM é que você precisa convertê-los primeiro para matrizes (com as.matrix()), antes de usá-los com a função dist().
Nos tweets sobre chardonnay, talvez tenha surpreendido ver a lenda do soul Marvin Gaye aparecer na nuvem de palavras. Vamos ver se o dendrograma capta a mesma coisa.
Este exercicio faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercicio
- Crie
tweets_tdm2aplicandoremoveSparseTerms()emtweets_tdm. Usesparse = 0.975. - Crie
tdm_musandoas.matrix()emtweets_tdm2para convertê-lo para o formato de matriz. - Crie
tweets_distcontendo as distâncias detdm_musando a funçãodist(). - Crie um objeto de cluster hierárquico chamado
hcusandohclust()emtweets_dist. - Faça um dendrograma com
plot()ehc.
exercicio interativo prático
Tente este exercicio completando este código de exemplo.
# Create tweets_tdm2
___ <- ___(___, ___)
# Create tdm_m
___ <- ___(___)
# Create tweets_dist
___ <- ___(___)
# Create hc
___ <- ___(___)
# Plot the dendrogram
___(___)