ComenzarEmpieza gratis

Extracción y análisis de características: amzn_cons

Ahora decides contrastarlo con el corpus amzn_cons_corp en otra TDM de bigramas. Por supuesto, esperas ver algunas frases distintas en tu nube de palabras.

Una vez más, usarás esta función personalizada para extraer tus características de bigramas para la visualización:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

  • Crea amzn_c_tdm convirtiendo amzn_cons_corp en un TermDocumentMatrix e incorporando la función de bigramas con control = list(tokenize = tokenizer).
  • Crea amzn_c_tdm_m como versión en matriz de amzn_c_tdm.
  • Crea amzn_c_freq usando rowSums() para obtener las frecuencias de términos a partir de amzn_c_tdm_m.
  • Crea una wordcloud() usando names(amzn_c_freq) y los valores amzn_c_freq. Usa también los argumentos max.words = 25 y color = "red".

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___
Editar y ejecutar código