1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Extrakce příznaků a analýza: amzn_cons

Teď se podíváš na srovnání s korpusem amzn_cons_corp pomocí dalšího bigramového TDM. V word cloudu samozřejmě očekávej jiné fráze.

K extrakci bigramových příznaků pro vizualizaci opět použiješ tuto vlastní funkci:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Pokyny

100 XP
  • Vytvoř amzn_c_tdm převodem amzn_cons_corp na TermDocumentMatrix s bigramovou funkcí control = list(tokenize = tokenizer).
  • Vytvoř amzn_c_tdm_m jako maticovou verzi amzn_c_tdm.
  • Vytvoř amzn_c_freq pomocí rowSums() pro získání četností termů z amzn_c_tdm_m.
  • Vytvoř wordcloud() s použitím names(amzn_c_freq) a hodnot amzn_c_freq. Přidej také argumenty max.words = 25 a color = "red".