IniziaInizia gratis

Tag cloud polarizzata

Le commonality cloud mostrano le parole condivise tra i documenti. Una cosa interessante che non possono mostrarti è quali di quelle parole compaiono più spesso in un documento rispetto a un altro. Per questo ti serve un pyramid plot; si può generare con pyramid.plot() dal pacchetto plotrix.

Per prima cosa, serve un po’ di manipolazione per ottenere i dati nel formato adatto. Il modo più semplice è convertirli in un data frame e usare dplyr. Dato una matrice di conteggi di parole, come quella creata da as.matrix(tdm), devi ottenere un data frame con tre colonne:

  • Le parole contenute in ciascun documento.
  • I conteggi di quelle parole dal documento 1.
  • I conteggi di quelle parole dal documento 2.

Poi usa pyramid.plot() così

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Ci sono alcuni argomenti aggiuntivi per migliorare l’aspetto estetico del grafico.

Ora esplorerai le parole comuni nei tweet su chardonnay, ma rare nei tweet sul caffè. all_dtm_m è già creato per te.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

top25_df <- all_tdm_m %>%
  # Convert to data frame
  as_tibble(rownames = "___") %>% 
  # Keep rows where word appears everywhere
  filter(if_all(everything(), ___) %>% 
  # Get difference in counts
  mutate(difference = ___) %>% 
  # Keep rows with biggest difference
  slice_max(___,  n = ___) %>% 
  # Arrange by descending difference
  arrange(___(___))
Modifica ed esegui il codice