¿Cómo afectan los bigramas a las nubes de palabras?
Ahora que has creado una DTM de bigramas, puedes examinarla y volver a crear una nube de palabras. El nuevo método de tokenización afecta no solo a las matrices, sino también a cualquier visualización o modelo basado en ellas.
¿Recuerdas cómo "Marvin" y "Gaye" eran términos separados en la nube de palabras de chardonnay? Usando bigramas, la tokenización captura todas las combinaciones de dos palabras. Observa qué ocurre con la nube de palabras en este ejercicio.
Este ejercicio usa str_subset de stringr. Ten en cuenta que otros cursos de DataCamp tratan las expresiones regulares con más detalle. Como recordatorio, la expresión regular ^ coincide con la posición de inicio dentro de los bigramas del ejercicio.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
Los tuits sobre chardonnay se han limpiado y organizado en una DTM llamada bigram_dtm.
- Crea
bigram_dtm_mconvirtiendobigram_dtmen una matriz. - Crea un objeto
freqcon las frecuencias de palabras aplicandocolSums()abigram_dtm_m. - Extrae el vector de caracteres con combinaciones de palabras usando
names(freq)y asigna el resultado abi_words. - Pasa
bi_wordsastr_subset()con el patrón de coincidencia"^marvin"para revisar todos los bigramas que empiezan por "marvin". - Grafica una
wordcloud()simple pasandobi_words,freqymax.words = 15a la función.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create bigram_dtm_m
___ <- ___(___)
# Create freq
___ <- ___(___)
# Create bi_words
___ <- ___(___)
# Examine part of bi_words
___(___, ___)
# Plot a word cloud
___(___, ___, ___)