Polarizovaný tag cloud

Mraky společných slov zobrazují slova, která se vyskytují napříč dokumenty. Jednu věc ale ukázat nedokážou – která z těchto slov se v jednom dokumentu vyskytují častěji než ve druhém. K tomu slouží pyramidový graf, který lze vytvořit pomocí funkce pyramid.plot() z balíčku plotrix.

Nejdřív je ale potřeba data trochu upravit do vhodného formátu. Nejsnáze to uděláš tak, že je převedeš na datový rámec a použiješ dplyr. Z matice počtů slov vytvořené pomocí as.matrix(tdm) potřebuješ datový rámec se třemi sloupci:

Slova obsažená v každém dokumentu.
Počty těchto slov v dokumentu 1.
Počty těchto slov v dokumentu 2.

Poté zavoláš pyramid.plot() takto:

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Funkce přijímá i další argumenty pro lepší vizuální podobu grafu.

Teď se podíváš na slova, která jsou běžná v tweetech o chardonnay, ale vzácná v tweetech o kávě. Proměnná all_dtm_m je už připravena.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

top25_df <- all_tdm_m %>%
  # Convert to data frame
  as_tibble(rownames = "___") %>% 
  # Keep rows where word appears everywhere
  filter(if_all(everything(), ___) %>% 
  # Get difference in counts
  mutate(difference = ___) %>% 
  # Keep rows with biggest difference
  slice_max(___,  n = ___) %>% 
  # Arrange by descending difference
  arrange(___(___))

Upravit a spustit kód