Asociación de palabras
Como era de esperar, ves temas similares a lo largo del dendrograma. Volviendo a los comentarios positivos, decides examinar frases destacadas que aparecieron en las nubes de palabras. Esperas encontrar términos asociados usando la función findAssocs() de tm. Ahora quieres buscar algo sorprendente, teniendo en cuenta que ya sabes de las largas jornadas y la falta de equilibrio entre vida personal y laboral.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
El corpus amzn_pros_corp se ha limpiado usando las funciones personalizadas como antes.
- Construye un TDM llamado
amzn_p_tdma partir deamzn_pros_corpycontrol = list(tokenize = tokenizer). - Crea
amzn_p_mconvirtiendoamzn_p_tdmen una matriz. - Crea
amzn_p_freqaplicandorowSums()aamzn_p_m. - Crea
term_frequencyusandosort()sobreamzn_p_freqjunto con el argumentodecreasing = TRUE. - Examina los 5 primeros bigramas con
term_frequency[1:5]. - Puede que te sorprenda ver "fast paced" como término destacado porque podría ser un término negativo relacionado con "long hours". Observa los términos más asociados con "fast paced". Usa
findAssocs()sobreamzn_p_tdmpara examinar"fast paced"con un umbral de0.2.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Create term_frequency
___ <- ___
# Print the 5 most common terms
___
# Find associations with fast-paced
___