Juntando tudo: um dendrograma baseado em texto
É hora de colocar suas habilidades em prática e criar seu primeiro dendrograma baseado em texto. Lembre-se: dendrogramas reduzem informações para ajudar você a interpretar os dados. Isso é parecido com uma média, que diz algo, mas não tudo, sobre uma população. Ambos podem ser enganosos. Em textos, muitas vezes surgem vários clusters sem sentido, mas alguns clusters valiosos também podem aparecer.
Uma particularidade dos objetos TDM e DTM é que você precisa convertê-los primeiro para matrizes (com as.matrix()), antes de usá-los com a função dist().
Nos tweets sobre chardonnay, talvez tenha surpreendido ver a lenda do soul Marvin Gaye aparecer na nuvem de palavras. Vamos ver se o dendrograma capta a mesma coisa.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Crie
tweets_tdm2aplicandoremoveSparseTerms()emtweets_tdm. Usesparse = 0.975. - Crie
tdm_musandoas.matrix()emtweets_tdm2para convertê-lo para o formato de matriz. - Crie
tweets_distcontendo as distâncias detdm_musando a funçãodist(). - Crie um objeto de cluster hierárquico chamado
hcusandohclust()emtweets_dist. - Faça um dendrograma com
plot()ehc.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create tweets_tdm2
___ <- ___(___, ___)
# Create tdm_m
___ <- ___(___)
# Create tweets_dist
___ <- ___(___)
# Create hc
___ <- ___(___)
# Plot the dendrogram
___(___)