ComeçarComece de graça

Juntando tudo: um dendrograma baseado em texto

É hora de colocar suas habilidades em prática e criar seu primeiro dendrograma baseado em texto. Lembre-se: dendrogramas reduzem informações para ajudar você a interpretar os dados. Isso é parecido com uma média, que diz algo, mas não tudo, sobre uma população. Ambos podem ser enganosos. Em textos, muitas vezes surgem vários clusters sem sentido, mas alguns clusters valiosos também podem aparecer.

Uma particularidade dos objetos TDM e DTM é que você precisa convertê-los primeiro para matrizes (com as.matrix()), antes de usá-los com a função dist().

Nos tweets sobre chardonnay, talvez tenha surpreendido ver a lenda do soul Marvin Gaye aparecer na nuvem de palavras. Vamos ver se o dendrograma capta a mesma coisa.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

  • Crie tweets_tdm2 aplicando removeSparseTerms() em tweets_tdm. Use sparse = 0.975.
  • Crie tdm_m usando as.matrix() em tweets_tdm2 para convertê-lo para o formato de matriz.
  • Crie tweets_dist contendo as distâncias de tdm_m usando a função dist().
  • Crie um objeto de cluster hierárquico chamado hc usando hclust() em tweets_dist.
  • Faça um dendrograma com plot() e hc.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create tweets_tdm2
___ <- ___(___, ___)

# Create tdm_m
___ <- ___(___)

# Create tweets_dist
___ <- ___(___)

# Create hc
___ <- ___(___)

# Plot the dendrogram
___(___)
Editar e executar o código