Ponlo todo junto: un dendrograma basado en texto
Es hora de poner en práctica tus habilidades para crear tu primer dendrograma basado en texto. Recuerda: los dendrogramas reducen la información para ayudarte a interpretar los datos. Es parecido a cómo una media te dice algo, pero no todo, sobre una población. Ambos pueden llevar a conclusiones erróneas. Con texto, a menudo aparecen muchos clústeres sin sentido, aunque también pueden surgir clústeres valiosos.
Una peculiaridad de los objetos TDM y DTM es que primero hay que convertirlos a matrices (con as.matrix()) antes de usarlos con la función dist().
En los tweets sobre chardonnay, quizá te sorprendiera ver que la leyenda del soul Marvin Gaye aparece en la nube de palabras. Veamos si el dendrograma detecta lo mismo.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Crea
tweets_tdm2aplicandoremoveSparseTerms()sobretweets_tdm. Usasparse = 0.975. - Crea
tdm_musandoas.matrix()sobretweets_tdm2para convertirlo a formato de matriz. - Crea
tweets_distcon las distancias detdm_musando la funcióndist(). - Crea un objeto de clustering jerárquico llamado
hcusandohclust()sobretweets_dist. - Genera un dendrograma con
plot()yhc.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create tweets_tdm2
___ <- ___(___, ___)
# Create tdm_m
___ <- ___(___)
# Create tweets_dist
___ <- ___(___)
# Create hc
___ <- ___(___)
# Plot the dendrogram
___(___)