Nuvem de tags polarizada
Commonality clouds mostram palavras que são compartilhadas entre documentos. Algo interessante que elas não conseguem mostrar é quais dessas palavras aparecem com mais frequência em um documento do que em outro. Para isso, você precisa de um gráfico de pirâmide; eles podem ser gerados usando pyramid.plot() do pacote plotrix.
Primeiro, é preciso fazer algumas manipulações para deixar os dados no formato adequado. A forma mais simples é converter para um data frame e usar dplyr. Dada uma matriz de contagens de palavras, como a criada por as.matrix(tdm), você precisa chegar a um data frame com três colunas:
- As palavras contidas em cada documento.
- As contagens dessas palavras no documento 1.
- As contagens dessas palavras no documento 2.
Depois, use pyramid.plot() com
pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)
Há alguns argumentos adicionais para melhorar a aparência do gráfico.
Agora você vai explorar palavras que são comuns em tweets sobre chardonnay, mas raras em tweets sobre coffee. all_dtm_m já foi criado para você.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
top25_df <- all_tdm_m %>%
# Convert to data frame
as_tibble(rownames = "___") %>%
# Keep rows where word appears everywhere
filter(if_all(everything(), ___) %>%
# Get difference in counts
mutate(difference = ___) %>%
# Keep rows with biggest difference
slice_max(___, n = ___) %>%
# Arrange by descending difference
arrange(___(___))