Nube de etiquetas polarizada
Las commonality clouds muestran palabras compartidas entre documentos. Algo interesante que no pueden mostrarte es cuáles de esas palabras aparecen con más frecuencia en un documento frente a otro. Para esto, necesitas un pyramid plot; puedes generarlos con pyramid.plot() del paquete plotrix.
Primero, hay que manipular un poco los datos para tenerlos en el formato adecuado. Lo más sencillo es convertirlos en un data frame y usar dplyr. Dada una matriz de conteos de palabras, como la que crea as.matrix(tdm), necesitas terminar con un data frame con tres columnas:
- Las palabras contenidas en cada documento.
- Los conteos de esas palabras en el documento 1.
- Los conteos de esas palabras en el documento 2.
Luego usa pyramid.plot() así:
pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)
Hay algunos argumentos adicionales para mejorar la apariencia del gráfico.
Ahora vas a explorar palabras que son comunes en tweets sobre chardonnay, pero raras en tweets sobre coffee. all_dtm_m ya está creado para ti.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
top25_df <- all_tdm_m %>%
# Convert to data frame
as_tibble(rownames = "___") %>%
# Keep rows where word appears everywhere
filter(if_all(everything(), ___) %>%
# Get difference in counts
mutate(difference = ___) %>%
# Keep rows with biggest difference
slice_max(___, n = ___) %>%
# Arrange by descending difference
arrange(___(___))