1. Learn
  2. /
  3. Courses
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Exercise

Polarizovaný tag cloud

Mraky společných slov zobrazují slova, která se vyskytují napříč dokumenty. Jednu věc ale ukázat nedokážou – která z těchto slov se v jednom dokumentu vyskytují častěji než ve druhém. K tomu slouží pyramidový graf, který lze vytvořit pomocí funkce pyramid.plot() z balíčku plotrix.

Nejdřív je ale potřeba data trochu upravit do vhodného formátu. Nejsnáze to uděláš tak, že je převedeš na datový rámec a použiješ dplyr. Z matice počtů slov vytvořené pomocí as.matrix(tdm) potřebuješ datový rámec se třemi sloupci:

  • Slova obsažená v každém dokumentu.
  • Počty těchto slov v dokumentu 1.
  • Počty těchto slov v dokumentu 2.

Poté zavoláš pyramid.plot() takto:

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Funkce přijímá i další argumenty pro lepší vizuální podobu grafu.

Teď se podíváš na slova, která jsou běžná v tweetech o chardonnay, ale vzácná v tweetech o kávě. Proměnná all_dtm_m je už připravena.

Instructions 1/2

undefined XP
    1
    2
  • Převeď all_tdm_m na tibble. Názvy řádků nastav jako sloupec s názvem "word".
  • Vyfiltruj všechny proměnné tak, aby byly větší než nula – použij syntaxi ~. > 0.
  • Přidej sloupec difference jako rozdíl počtu výskytů ve sloupci chardonnay minus počet výskytů ve sloupci coffee.
  • Pomocí slice_max a sloupce difference vyber top n = 25 řádků.
  • Seřaď řádky sestupně (desc()) podle sloupce difference.