Extracción de características y análisis: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp y goog_cons_corp ya se han preprocesado, así que ahora puedes extraer las características que quieres examinar. Como estás usando el enfoque de bag of words, decides crear una TermDocumentMatrix de bigramas para el corpus de reseñas positivas de Amazon, amzn_pros_corp. A partir de esto, puedes crear rápidamente una wordcloud() para entender qué frases la gente asocia positivamente con trabajar en Amazon.

La función siguiente usa RWeka para tokenizar en dos términos y se utiliza entre bambalinas en este ejercicio.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

Crea amzn_p_tdm como una TermDocumentMatrix a partir de amzn_pros_corp. Asegúrate de añadir control = list(tokenize = tokenizer) para que los términos sean bigramas.
Crea amzn_p_tdm_m a partir de amzn_p_tdm usando la función as.matrix().
Crea amzn_p_freq para obtener las frecuencias de los términos a partir de amzn_p_tdm_m.
Crea una wordcloud() usando names(amzn_p_freq) como palabras, amzn_p_freq como sus frecuencias, y max.words = 25 y color = "blue" para la estética.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)

Editar y ejecutar código