Ekstrakcja cech i analiza: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp i goog_cons_corp zostały już przetworzone wstępnie, więc możesz teraz wyodrębnić interesujące cię cechy. Ponieważ korzystasz z podejścia bag of words, tworzysz bigramową TermDocumentMatrix dla korpusu pozytywnych recenzji Amazon – amzn_pros_corp. Na jej podstawie szybko wygenerujesz wordcloud(), który pokaże, jakie frazy pracownicy kojarzą pozytywnie z pracą w Amazon.

Poniższa funkcja używa RWeka do tokenizacji par wyrazów i działa w tle podczas tego ćwiczenia.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Utwórz amzn_p_tdm jako TermDocumentMatrix na podstawie amzn_pros_corp. Pamiętaj, aby dodać control = list(tokenize = tokenizer), tak żeby terminy były bigramami.
Utwórz amzn_p_tdm_m z amzn_p_tdm, używając funkcji as.matrix().
Utwórz amzn_p_freq, aby uzyskać częstości terminów z amzn_p_tdm_m.
Utwórz wordcloud(), używając names(amzn_p_freq) jako słów, amzn_p_freq jako ich częstości oraz max.words = 25 i color = "blue" dla efektu wizualnego.

exercițiu

Ekstrakcja cech i analiza: amzn_pros

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu