Tag cloud polarizzata
Le commonality cloud mostrano le parole condivise tra i documenti. Una cosa interessante che non possono mostrarti è quali di quelle parole compaiono più spesso in un documento rispetto a un altro. Per questo ti serve un pyramid plot; si può generare con pyramid.plot() dal pacchetto plotrix.
Per prima cosa, serve un po’ di manipolazione per ottenere i dati nel formato adatto. Il modo più semplice è convertirli in un data frame e usare dplyr. Dato una matrice di conteggi di parole, come quella creata da as.matrix(tdm), devi ottenere un data frame con tre colonne:
- Le parole contenute in ciascun documento.
- I conteggi di quelle parole dal documento 1.
- I conteggi di quelle parole dal documento 2.
Poi usa pyramid.plot() così
pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)
Ci sono alcuni argomenti aggiuntivi per migliorare l’aspetto estetico del grafico.
Ora esplorerai le parole comuni nei tweet su chardonnay, ma rare nei tweet sul caffè. all_dtm_m è già creato per te.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
top25_df <- all_tdm_m %>%
# Convert to data frame
as_tibble(rownames = "___") %>%
# Keep rows where word appears everywhere
filter(if_all(everything(), ___) %>%
# Get difference in counts
mutate(difference = ___) %>%
# Keep rows with biggest difference
slice_max(___, n = ___) %>%
# Arrange by descending difference
arrange(___(___))