1. Learn
  2. /
  3. Cursuri
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

exercițiu

Ekstrakcja cech i analiza: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp i goog_cons_corp zostały już przetworzone wstępnie, więc możesz teraz wyodrębnić interesujące cię cechy. Ponieważ korzystasz z podejścia bag of words, tworzysz bigramową TermDocumentMatrix dla korpusu pozytywnych recenzji Amazon – amzn_pros_corp. Na jej podstawie szybko wygenerujesz wordcloud(), który pokaże, jakie frazy pracownicy kojarzą pozytywnie z pracą w Amazon.

Poniższa funkcja używa RWeka do tokenizacji par wyrazów i działa w tle podczas tego ćwiczenia.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Instrucțiuni

100 XP
  • Utwórz amzn_p_tdm jako TermDocumentMatrix na podstawie amzn_pros_corp. Pamiętaj, aby dodać control = list(tokenize = tokenizer), tak żeby terminy były bigramami.
  • Utwórz amzn_p_tdm_m z amzn_p_tdm, używając funkcji as.matrix().
  • Utwórz amzn_p_freq, aby uzyskać częstości terminów z amzn_p_tdm_m.
  • Utwórz wordcloud(), używając names(amzn_p_freq) jako słów, amzn_p_freq jako ich częstości oraz max.words = 25 i color = "blue" dla efektu wizualnego.