Nuvem de tags polarizada

Commonality clouds mostram palavras que são compartilhadas entre documentos. Algo interessante que elas não conseguem mostrar é quais dessas palavras aparecem com mais frequência em um documento do que em outro. Para isso, você precisa de um gráfico de pirâmide; eles podem ser gerados usando pyramid.plot() do pacote plotrix.

Primeiro, é preciso fazer algumas manipulações para deixar os dados no formato adequado. A forma mais simples é converter para um data frame e usar dplyr. Dada uma matriz de contagens de palavras, como a criada por as.matrix(tdm), você precisa chegar a um data frame com três colunas:

As palavras contidas em cada documento.
As contagens dessas palavras no documento 1.
As contagens dessas palavras no documento 2.

Depois, use pyramid.plot() com

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Há alguns argumentos adicionais para melhorar a aparência do gráfico.

Agora você vai explorar palavras que são comuns em tweets sobre chardonnay, mas raras em tweets sobre coffee. all_dtm_m já foi criado para você.

Este exercicio faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

top25_df <- all_tdm_m %>%
  # Convert to data frame
  as_tibble(rownames = "___") %>% 
  # Keep rows where word appears everywhere
  filter(if_all(everything(), ___) %>% 
  # Get difference in counts
  mutate(difference = ___) %>% 
  # Keep rows with biggest difference
  slice_max(___,  n = ___) %>% 
  # Arrange by descending difference
  arrange(___(___))

Editar e Executar Código