Nube de etiquetas polarizada

Las commonality clouds muestran palabras compartidas entre documentos. Algo interesante que no pueden mostrarte es cuáles de esas palabras aparecen con más frecuencia en un documento frente a otro. Para esto, necesitas un pyramid plot; puedes generarlos con pyramid.plot() del paquete plotrix.

Primero, hay que manipular un poco los datos para tenerlos en el formato adecuado. Lo más sencillo es convertirlos en un data frame y usar dplyr. Dada una matriz de conteos de palabras, como la que crea as.matrix(tdm), necesitas terminar con un data frame con tres columnas:

Las palabras contenidas en cada documento.
Los conteos de esas palabras en el documento 1.
Los conteos de esas palabras en el documento 2.

Luego usa pyramid.plot() así:

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Hay algunos argumentos adicionales para mejorar la apariencia del gráfico.

Ahora vas a explorar palabras que son comunes en tweets sobre chardonnay, pero raras en tweets sobre coffee. all_dtm_m ya está creado para ti.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

top25_df <- all_tdm_m %>%
  # Convert to data frame
  as_tibble(rownames = "___") %>% 
  # Keep rows where word appears everywhere
  filter(if_all(everything(), ___) %>% 
  # Get difference in counts
  mutate(difference = ___) %>% 
  # Keep rows with biggest difference
  slice_max(___,  n = ___) %>% 
  # Arrange by descending difference
  arrange(___(___))

Editar y ejecutar código