ComenzarEmpieza gratis

Matriz de distancias y dendrograma

Una forma sencilla de hacer análisis de clústeres de palabras es con un dendrograma sobre tu matriz término-documento. Una vez que tengas un TDM, puedes llamar a dist() para calcular las diferencias entre cada fila de la matriz.

Después, llama a hclust() para realizar el análisis de clústeres sobre las disimilitudes de la matriz de distancias. Por último, puedes visualizar las distancias de frecuencia de palabras usando un dendrograma y plot(). A menudo, en minería de texto, puedes extraer ideas interesantes o clústeres de palabras basándote en un dendrograma.

Piensa en la tabla de precipitaciones anuales que viste en el último vídeo. Cleveland y Portland tienen la misma cantidad de lluvia, así que su distancia es 0. Podrías esperar que esas dos ciudades formen un clúster y que New Orleans quede por su cuenta, ya que recibe mucha más lluvia.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

El data frame rain se ha precargado en tu espacio de trabajo.

  • Crea dist_rain usando la función dist() sobre los valores de la segunda columna de rain.
  • Imprime la matriz dist_rain en la consola.
  • Crea hc realizando un análisis de clústeres con hclust() sobre dist_rain.
  • Haz plot() del objeto hc con labels = rain$city para añadir los nombres de las ciudades.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)
Editar y ejecutar código