Asociación de palabras

Como era de esperar, ves temas similares a lo largo del dendrograma. Volviendo a los comentarios positivos, decides examinar frases destacadas que aparecieron en las nubes de palabras. Esperas encontrar términos asociados usando la función findAssocs() de tm. Ahora quieres buscar algo sorprendente, teniendo en cuenta que ya sabes de las largas jornadas y la falta de equilibrio entre vida personal y laboral.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

El corpus amzn_pros_corp se ha limpiado usando las funciones personalizadas como antes.

Construye un TDM llamado amzn_p_tdm a partir de amzn_pros_corp y control = list(tokenize = tokenizer).
Crea amzn_p_m convirtiendo amzn_p_tdm en una matriz.
Crea amzn_p_freq aplicando rowSums() a amzn_p_m.
Crea term_frequency usando sort() sobre amzn_p_freq junto con el argumento decreasing = TRUE.
Examina los 5 primeros bigramas con term_frequency[1:5].
Puede que te sorprenda ver "fast paced" como término destacado porque podría ser un término negativo relacionado con "long hours". Observa los términos más asociados con "fast paced". Usa findAssocs() sobre amzn_p_tdm para examinar "fast paced" con un umbral de 0.2.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Create term_frequency
___ <- ___

# Print the 5 most common terms
___

# Find associations with fast-paced
___

Editar y ejecutar código