1. Learn
  2. /
  3. Courses
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

Exercise

Wizualizacja słów różniących się między korpusami

Jeśli chcesz zwizualizować słowa, które nie są wspólne dla obu zbiorów, możesz również użyć funkcji comparison.cloud(). Kroki są bardzo podobne, z jedną istotną różnicą.

Podobnie jak podczas wyszukiwania wspólnych słów, zacznij od połączenia tweetów w osobne korpusy i zgrupowania ich w jednym obiekcie VCorpus(). Następnie zastosuj funkcję clean_corpus() i zorganizuj dane w TermDocumentMatrix.

Aby śledzić, które słowa należą do coffee, a które do chardonnay, możesz nadać kolumnom TDM odpowiednie nazwy:

colnames(all_tdm) <- c("chardonnay", "coffee")

Na koniec przekształć obiekt w macierz za pomocą as.matrix(), aby użyć go w comparison.cloud(). Dla każdego osobnego korpusu przekazanego do comparison.cloud() możesz określić kolor, np. colors = c("red", "yellow", "green"), aby sekcje były łatwo rozróżnialne.

Instructions

100 XP

all_corpus jest wczytane do twojego środowiska.

  • Utwórz all_clean, stosując predefiniowaną funkcję clean_corpus do all_corpus.
  • Utwórz all_tdm – obiekt TermDocumentMatrix – na podstawie all_clean.
  • Użyj colnames(), aby nadać nazwy poszczególnym korpusom w all_tdm. Nazwij pierwszą kolumnę "coffee", a drugą – "chardonnay".
  • Utwórz all_m, przekształcając all_tdm w macierz.
  • Utwórz wykres comparison.cloud() na podstawie all_m, ustawiając colors = c("orange", "blue") i max.words = 50.