Dendrograma de amzn_cons
Parece que hay una fuerte indicación de jornadas largas y una mala conciliación entre vida personal y laboral en las reseñas. Como técnica de agrupación sencilla, decides realizar un clustering jerárquico y crear un dendrograma para ver qué tan conectadas están estas frases.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Crea
amzn_c_tdmcomo unTermDocumentMatrixusandoamzn_cons_corpconcontrol = list(tokenize = tokenizer). - Imprime
amzn_c_tdmen la consola. - Crea
amzn_c_tdm2aplicando la funciónremoveSparseTerms()aamzn_c_tdmcon el argumentosparseigual a.993. - Crea
hc, un objeto de clustering jerárquico, anidando la matriz de distanciasdist(amzn_c_tdm2)dentro de la funciónhclust(). Asegúrate también de pasarmethod = "complete"a la funciónhclust(). - Dibuja
hcpara ver los bigramas agrupados y observar cómo los conceptos en la sección de contras de Amazon pueden llevarte a una conclusión.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Print amzn_c_tdm to the console
___
# Create amzn_c_tdm2 by removing sparse terms
___ <- ___
# Create hc as a cluster of distance values
___ <- ___(___,
___)
# Produce a plot of hc
___