1. Learn
  2. /
  3. Courses
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

Exercise

Znajdź wspólne słowa

Wyobraź sobie, że chcesz zwizualizować słowa pojawiające się w wielu dokumentach jednocześnie. Możesz to zrobić za pomocą funkcji commonality.cloud().

Każdy z naszych korpusów – kawowy i chardonnay – składa się z wielu pojedynczych tweetów. Aby potraktować tweety o kawie jako jeden dokument (i analogicznie tweety o chardonnay), użyj funkcji paste() z parametrem collapse = " " na wszystkich tweetach w każdym korpusie. Spowoduje to złączenie wszystkich tweetów (oddzielonych spacją) w jeden wektor. Następnie możesz utworzyć pojedynczy wektor zawierający oba złączone dokumenty.

a_single_string <- paste(a_character_vector, collapse = " ")

Po wykonaniu tych kroków zastosuj to samo podejście, które już znasz, aby utworzyć VCorpus() na podstawie VectorSource z obiektu all_tweets.

Instructions

100 XP
  • Utwórz all_coffee, używając paste() z collapse = " " na coffee_tweets$text.
  • Utwórz all_chardonnay, używając paste() z collapse = " " na chardonnay_tweets$text.
  • Utwórz all_tweets, używając c() do połączenia all_coffee i all_chardonnay. Jako pierwszy element podaj all_coffee.
  • Przekształć all_tweets za pomocą VectorSource().
  • Utwórz all_corpus, używając VCorpus() na all_tweets.