Extrakce příznaků a analýza: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp a goog_cons_corp jsou již předzpracované, takže teď můžeš přistoupit k extrakci příznaků. Protože pracuješ s metodou bag of words, rozhodneš se vytvořit bigramovou TermDocumentMatrix pro korpus kladných recenzí Amazonu – amzn_pros_corp. Z ní pak snadno vytvoříš wordcloud(), který ti ukáže, jaké fráze lidé spojují s prací v Amazonu v pozitivním smyslu.

Níže uvedená funkce využívá RWeka k tokenizaci dvojic slov a je v tomto cvičení použita na pozadí.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Vytvoř amzn_p_tdm jako TermDocumentMatrix z amzn_pros_corp. Nezapomeň přidat control = list(tokenize = tokenizer), aby byly termíny bigramy.
Vytvoř amzn_p_tdm_m z amzn_p_tdm pomocí funkce as.matrix().
Vytvoř amzn_p_freq pro získání četností termínů z amzn_p_tdm_m.
Vytvoř wordcloud() s použitím names(amzn_p_freq) jako slov, amzn_p_freq jako jejich četností a max.words = 25 a color = "blue" pro vizuální úpravu.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)

Upravit a spustit kód