Matriz de distâncias e dendrograma
Uma forma simples de fazer análise de clusters de palavras é com um dendrograma da sua matriz termo-documento. Depois de ter uma TDM, você pode chamar dist() para calcular as diferenças entre cada linha da matriz.
Em seguida, chame hclust() para realizar a análise de clusters com base nas dissimilaridades da matriz de distâncias. Por fim, você pode visualizar as distâncias de frequência das palavras usando um dendrograma e plot(). Com frequência em mineração de texto, dá para extrair insights interessantes ou agrupar palavras com base em um dendrograma.
Considere a tabela de precipitação anual que você viu no último vídeo. Cleveland e Portland têm a mesma quantidade de chuva, então a distância entre elas é 0. Você pode esperar que as duas cidades formem um cluster e que New Orleans fique separada, já que recebe muito mais chuva.
city rainfall
Cleveland 39.14
Portland 39.14
Boston 43.77
New Orleans 62.45
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
O data frame rain já foi pré-carregado no seu workspace.
- Crie
dist_rainusando a funçãodist()nos valores da segunda coluna derain. - Imprima a matriz
dist_rainno console. - Crie
hcrealizando uma análise de clusters comhclust()emdist_rain. - Faça
plot()do objetohccomlabels = rain$citypara adicionar os nomes das cidades.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create dist_rain
___ <- ___(___)
# View the distance matrix
___
# Create hc
___ <- ___(___)
# Plot hc
___(___, ___)