ComenzarEmpieza gratis

Crea un TDM apto para dendrogramas

Ahora que entiendes los pasos para crear un dendrograma, puedes aplicarlos a texto. Pero primero, tienes que limitar el número de palabras en tu TDM usando removeSparseTerms() de tm. ¿Por qué querrías ajustar la dispersión (sparsity) del TDM/DTM?

Los TDM y DTM son dispersos: contienen sobre todo ceros. Recuerda que 1000 tuits pueden convertirse en un TDM con más de 3000 términos. No podrás interpretar fácilmente un dendrograma tan recargado, especialmente si trabajas con más texto.

En la mayoría de entornos profesionales, un buen dendrograma se basa en un TDM con entre 25 y 70 términos. Tener más de 70 términos puede hacer que la visualización esté saturada e incomprensible. Por el contrario, tener menos de 25 términos probablemente implique que tu dendrograma no muestre grupos relevantes ni informativos.

Al usar removeSparseTerms(), el parámetro sparse ajusta el total de términos que se mantienen en el TDM. Cuanto más cerca esté sparse de 1, más términos se conservan. Este valor representa un umbral porcentual de ceros para cada término en el TDM.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

tweets_tdm se ha creado usando los tuits sobre chardonnay.

  • Imprime las dimensiones de tweets_tdm en la consola.
  • Crea tdm1 usando removeSparseTerms() con sparse = 0.95 sobre tweets_tdm.
  • Crea tdm2 usando removeSparseTerms() con sparse = 0.975 sobre tweets_tdm.
  • Imprime tdm1 en la consola para ver cuántos términos quedan.
  • Imprime tdm2 en la consola para ver cuántos términos quedan.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Print the dimensions of tweets_tdm
___

# Create tdm1
___ <- ___(___, ___)

# Create tdm2
___ <- ___(___, ___)

# Print tdm1
___

# Print tdm2
___
Editar y ejecutar código