Extracción de características y análisis: amzn_pros
amzn_pros_corp, amzn_cons_corp, goog_pros_corp y goog_cons_corp ya se han preprocesado, así que ahora puedes extraer las características que quieres examinar. Como estás usando el enfoque de bag of words, decides crear una TermDocumentMatrix de bigramas para el corpus de reseñas positivas de Amazon, amzn_pros_corp. A partir de esto, puedes crear rápidamente una wordcloud() para entender qué frases la gente asocia positivamente con trabajar en Amazon.
La función siguiente usa RWeka para tokenizar en dos términos y se utiliza entre bambalinas en este ejercicio.
tokenizer <- function(x) {
NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Crea
amzn_p_tdmcomo unaTermDocumentMatrixa partir deamzn_pros_corp. Asegúrate de añadircontrol = list(tokenize = tokenizer)para que los términos sean bigramas. - Crea
amzn_p_tdm_ma partir deamzn_p_tdmusando la funciónas.matrix(). - Crea
amzn_p_freqpara obtener las frecuencias de los términos a partir deamzn_p_tdm_m. - Crea una
wordcloud()usandonames(amzn_p_freq)como palabras,amzn_p_freqcomo sus frecuencias, ymax.words = 25ycolor = "blue"para la estética.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_tdm_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Plot a word cloud using amzn_p_freq values
___(___)