1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Extrakce příznaků a analýza: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp a goog_cons_corp jsou již předzpracované, takže teď můžeš přistoupit k extrakci příznaků. Protože pracuješ s metodou bag of words, rozhodneš se vytvořit bigramovou TermDocumentMatrix pro korpus kladných recenzí Amazonu – amzn_pros_corp. Z ní pak snadno vytvoříš wordcloud(), který ti ukáže, jaké fráze lidé spojují s prací v Amazonu v pozitivním smyslu.

Níže uvedená funkce využívá RWeka k tokenizaci dvojic slov a je v tomto cvičení použita na pozadí.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Pokyny

100 XP
  • Vytvoř amzn_p_tdm jako TermDocumentMatrix z amzn_pros_corp. Nezapomeň přidat control = list(tokenize = tokenizer), aby byly termíny bigramy.
  • Vytvoř amzn_p_tdm_m z amzn_p_tdm pomocí funkce as.matrix().
  • Vytvoř amzn_p_freq pro získání četností termínů z amzn_p_tdm_m.
  • Vytvoř wordcloud() s použitím names(amzn_p_freq) jako slov, amzn_p_freq jako jejich četností a max.words = 25 a color = "blue" pro vizuální úpravu.