Ponlo todo junto: un dendrograma basado en texto

Es hora de poner en práctica tus habilidades para crear tu primer dendrograma basado en texto. Recuerda: los dendrogramas reducen la información para ayudarte a interpretar los datos. Es parecido a cómo una media te dice algo, pero no todo, sobre una población. Ambos pueden llevar a conclusiones erróneas. Con texto, a menudo aparecen muchos clústeres sin sentido, aunque también pueden surgir clústeres valiosos.

Una peculiaridad de los objetos TDM y DTM es que primero hay que convertirlos a matrices (con as.matrix()) antes de usarlos con la función dist().

En los tweets sobre chardonnay, quizá te sorprendiera ver que la leyenda del soul Marvin Gaye aparece en la nube de palabras. Veamos si el dendrograma detecta lo mismo.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

Crea tweets_tdm2 aplicando removeSparseTerms() sobre tweets_tdm. Usa sparse = 0.975.
Crea tdm_m usando as.matrix() sobre tweets_tdm2 para convertirlo a formato de matriz.
Crea tweets_dist con las distancias de tdm_m usando la función dist().
Crea un objeto de clustering jerárquico llamado hc usando hclust() sobre tweets_dist.
Genera un dendrograma con plot() y hc.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create tweets_tdm2
___ <- ___(___, ___)

# Create tdm_m
___ <- ___(___)

# Create tweets_dist
___ <- ___(___)

# Create hc
___ <- ___(___)

# Plot the dendrogram
___(___)

Editar y ejecutar código