Matriz de distancias y dendrograma
Una forma sencilla de hacer análisis de clústeres de palabras es con un dendrograma sobre tu matriz término-documento. Una vez que tengas un TDM, puedes llamar a dist() para calcular las diferencias entre cada fila de la matriz.
Después, llama a hclust() para realizar el análisis de clústeres sobre las disimilitudes de la matriz de distancias. Por último, puedes visualizar las distancias de frecuencia de palabras usando un dendrograma y plot(). A menudo, en minería de texto, puedes extraer ideas interesantes o clústeres de palabras basándote en un dendrograma.
Piensa en la tabla de precipitaciones anuales que viste en el último vídeo. Cleveland y Portland tienen la misma cantidad de lluvia, así que su distancia es 0. Podrías esperar que esas dos ciudades formen un clúster y que New Orleans quede por su cuenta, ya que recibe mucha más lluvia.
city rainfall
Cleveland 39.14
Portland 39.14
Boston 43.77
New Orleans 62.45
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
El data frame rain se ha precargado en tu espacio de trabajo.
- Crea
dist_rainusando la funcióndist()sobre los valores de la segunda columna derain. - Imprime la matriz
dist_rainen la consola. - Crea
hcrealizando un análisis de clústeres conhclust()sobredist_rain. - Haz
plot()del objetohcconlabels = rain$citypara añadir los nombres de las ciudades.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create dist_rain
___ <- ___(___)
# View the distance matrix
___
# Create hc
___ <- ___(___)
# Plot hc
___(___, ___)