ComenzarEmpieza gratis

Dendrograma de amzn_cons

Parece que hay una fuerte indicación de jornadas largas y una mala conciliación entre vida personal y laboral en las reseñas. Como técnica de agrupación sencilla, decides realizar un clustering jerárquico y crear un dendrograma para ver qué tan conectadas están estas frases.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

  • Crea amzn_c_tdm como un TermDocumentMatrix usando amzn_cons_corp con control = list(tokenize = tokenizer).
  • Imprime amzn_c_tdm en la consola.
  • Crea amzn_c_tdm2 aplicando la función removeSparseTerms() a amzn_c_tdm con el argumento sparse igual a .993.
  • Crea hc, un objeto de clustering jerárquico, anidando la matriz de distancias dist(amzn_c_tdm2) dentro de la función hclust(). Asegúrate también de pasar method = "complete" a la función hclust().
  • Dibuja hc para ver los bigramas agrupados y observar cómo los conceptos en la sección de contras de Amazon pueden llevarte a una conclusión.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___
Editar y ejecutar código