ComenzarEmpieza gratis

¿Cómo afectan los bigramas a las nubes de palabras?

Ahora que has creado una DTM de bigramas, puedes examinarla y volver a crear una nube de palabras. El nuevo método de tokenización afecta no solo a las matrices, sino también a cualquier visualización o modelo basado en ellas.

¿Recuerdas cómo "Marvin" y "Gaye" eran términos separados en la nube de palabras de chardonnay? Usando bigramas, la tokenización captura todas las combinaciones de dos palabras. Observa qué ocurre con la nube de palabras en este ejercicio.

Este ejercicio usa str_subset de stringr. Ten en cuenta que otros cursos de DataCamp tratan las expresiones regulares con más detalle. Como recordatorio, la expresión regular ^ coincide con la posición de inicio dentro de los bigramas del ejercicio.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

Los tuits sobre chardonnay se han limpiado y organizado en una DTM llamada bigram_dtm.

  • Crea bigram_dtm_m convirtiendo bigram_dtm en una matriz.
  • Crea un objeto freq con las frecuencias de palabras aplicando colSums() a bigram_dtm_m.
  • Extrae el vector de caracteres con combinaciones de palabras usando names(freq) y asigna el resultado a bi_words.
  • Pasa bi_words a str_subset() con el patrón de coincidencia "^marvin" para revisar todos los bigramas que empiezan por "marvin".
  • Grafica una wordcloud() simple pasando bi_words, freq y max.words = 15 a la función.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)
Editar y ejecutar código