1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Ekstrakcja cech i analiza: amzn_cons

Teraz postanawiasz zestawić to z korpusem amzn_cons_corp w kolejnej macierzy TDM z bigramami. Spodziewaj się, że w chmurze słów pojawią się nieco inne wyrażenia.

Ponownie skorzystasz z tej własnej funkcji, aby wyodrębnić cechy bigramowe do wizualizacji:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Instrukcje

100 XP
  • Utwórz amzn_c_tdm, konwertując amzn_cons_corp na TermDocumentMatrix z uwzględnieniem funkcji bigramowej control = list(tokenize = tokenizer).
  • Utwórz amzn_c_tdm_m jako wersję macierzową amzn_c_tdm.
  • Utwórz amzn_c_freq, używając rowSums() do obliczenia częstości terminów z amzn_c_tdm_m.
  • Utwórz wordcloud(), używając names(amzn_c_freq) oraz wartości amzn_c_freq. Dodaj również argumenty max.words = 25 i color = "red".