Crea un TDM apto para dendrogramas
Ahora que entiendes los pasos para crear un dendrograma, puedes aplicarlos a texto. Pero primero, tienes que limitar el número de palabras en tu TDM usando removeSparseTerms() de tm. ¿Por qué querrías ajustar la dispersión (sparsity) del TDM/DTM?
Los TDM y DTM son dispersos: contienen sobre todo ceros. Recuerda que 1000 tuits pueden convertirse en un TDM con más de 3000 términos. No podrás interpretar fácilmente un dendrograma tan recargado, especialmente si trabajas con más texto.
En la mayoría de entornos profesionales, un buen dendrograma se basa en un TDM con entre 25 y 70 términos. Tener más de 70 términos puede hacer que la visualización esté saturada e incomprensible. Por el contrario, tener menos de 25 términos probablemente implique que tu dendrograma no muestre grupos relevantes ni informativos.
Al usar removeSparseTerms(), el parámetro sparse ajusta el total de términos que se mantienen en el TDM. Cuanto más cerca esté sparse de 1, más términos se conservan. Este valor representa un umbral porcentual de ceros para cada término en el TDM.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
tweets_tdm se ha creado usando los tuits sobre chardonnay.
- Imprime las dimensiones de
tweets_tdmen la consola. - Crea
tdm1usandoremoveSparseTerms()consparse = 0.95sobretweets_tdm. - Crea
tdm2usandoremoveSparseTerms()consparse = 0.975sobretweets_tdm. - Imprime
tdm1en la consola para ver cuántos términos quedan. - Imprime
tdm2en la consola para ver cuántos términos quedan.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Print the dimensions of tweets_tdm
___
# Create tdm1
___ <- ___(___, ___)
# Create tdm2
___ <- ___(___, ___)
# Print tdm1
___
# Print tdm2
___