1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Skojarzenia słów

Zgodnie z oczekiwaniami w dendrogramie widać podobne tematy. Wracając do pozytywnych komentarzy, postanawiasz przyjrzeć się wyrażeniom, które najczęściej pojawiały się w chmurach słów. Masz nadzieję znaleźć powiązane terminy za pomocą funkcji findAssocs() z pakietu tm. Skoro wiesz już o długich godzinach pracy i braku równowagi między życiem zawodowym a prywatnym, sprawdź, czy coś cię zaskoczy.

Instrukcje

100 XP

Korpus amzn_pros_corp został wyczyszczony przy użyciu niestandardowych funkcji, tak jak wcześniej.

  • Zbuduj TDM o nazwie amzn_p_tdm na podstawie amzn_pros_corp z parametrem control = list(tokenize = tokenizer).
  • Utwórz amzn_p_m, konwertując amzn_p_tdm na macierz.
  • Utwórz amzn_p_freq, stosując rowSums() do amzn_p_m.
  • Utwórz term_frequency, używając sort() na amzn_p_freq z argumentem decreasing = TRUE.
  • Wyświetl 5 pierwszych bigramów za pomocą term_frequency[1:5].
  • Możesz być zaskoczony, widząc „fast paced" jako jeden z najczęstszych terminów – może mieć negatywny wydźwięk związany z „długimi godzinami pracy". Sprawdź, jakie terminy są najbardziej skojarzone z „fast paced". Użyj findAssocs() na amzn_p_tdm, aby zbadać "fast paced" z progiem 0.2.