ComeçarComece de graça

Matriz de distâncias e dendrograma

Uma forma simples de fazer análise de clusters de palavras é com um dendrograma da sua matriz termo-documento. Depois de ter uma TDM, você pode chamar dist() para calcular as diferenças entre cada linha da matriz.

Em seguida, chame hclust() para realizar a análise de clusters com base nas dissimilaridades da matriz de distâncias. Por fim, você pode visualizar as distâncias de frequência das palavras usando um dendrograma e plot(). Com frequência em mineração de texto, dá para extrair insights interessantes ou agrupar palavras com base em um dendrograma.

Considere a tabela de precipitação anual que você viu no último vídeo. Cleveland e Portland têm a mesma quantidade de chuva, então a distância entre elas é 0. Você pode esperar que as duas cidades formem um cluster e que New Orleans fique separada, já que recebe muito mais chuva.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

O data frame rain já foi pré-carregado no seu workspace.

  • Crie dist_rain usando a função dist() nos valores da segunda coluna de rain.
  • Imprima a matriz dist_rain no console.
  • Crie hc realizando uma análise de clusters com hclust() em dist_rain.
  • Faça plot() do objeto hc com labels = rain$city para adicionar os nomes das cidades.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)
Editar e executar o código