1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Nejčastější termíny s balíčkem tm

Teď, když víš, jak vytvořit term-document matrix i její transponovanou verzi – document-term matrix –, použijeme ji jako základ pro analýzu. Aby se s ní dobře pracovalo, je potřeba ji převést na jednoduchou matici pomocí as.matrix(), stejně jako jsme to dělali v 1. kapitole.

Zavoláním rowSums() na nově vzniklou matici agregujeme výskyty všech termínů v textu. Výsledné součty pak můžeš seřadit pomocí sort() s parametrem decreasing = TRUE a zaměřit se tak na nejčastěji používané termíny.

Nakonec si zobrazíš barplot() s 5 nejčastějšími termíny z term_frequency pomocí následujícího kódu:

barplot(term_frequency[1:5], col = "#C0DE25")

A pokud by ses chtěl/a naučit graf ještě více přizpůsobit, podívej se na naše kurzy ggplot2… :)

Pokyny

100 XP
  • Vytvoř coffee_m jako matici z term-document matrix coffee_tdm z předchozí kapitoly.
  • Vytvoř term_frequency pomocí funkce rowSums() aplikované na coffee_m.
  • Seřaď term_frequency sestupně a výsledek ulož zpět do term_frequency.
  • Pomocí indexování jednoduchými hranatými závorkami, tj. pouze jedním [, vypiš 10 nejčastějších termínů z term_frequency.
  • Vytvoř sloupcový graf (barplot) pro 10 nejčastějších termínů.