Wizualizacja słów różniących się między korpusami

Jeśli chcesz zwizualizować słowa, które nie są wspólne dla obu zbiorów, możesz również użyć funkcji comparison.cloud(). Kroki są bardzo podobne, z jedną istotną różnicą.

Podobnie jak podczas wyszukiwania wspólnych słów, zacznij od połączenia tweetów w osobne korpusy i zgrupowania ich w jednym obiekcie VCorpus(). Następnie zastosuj funkcję clean_corpus() i zorganizuj dane w TermDocumentMatrix.

Aby śledzić, które słowa należą do coffee, a które do chardonnay, możesz nadać kolumnom TDM odpowiednie nazwy:

colnames(all_tdm) <- c("chardonnay", "coffee")

Na koniec przekształć obiekt w macierz za pomocą as.matrix(), aby użyć go w comparison.cloud(). Dla każdego osobnego korpusu przekazanego do comparison.cloud() możesz określić kolor, np. colors = c("red", "yellow", "green"), aby sekcje były łatwo rozróżnialne.

all_corpus jest wczytane do twojego środowiska.

Utwórz all_clean, stosując predefiniowaną funkcję clean_corpus do all_corpus.
Utwórz all_tdm – obiekt TermDocumentMatrix – na podstawie all_clean.
Użyj colnames(), aby nadać nazwy poszczególnym korpusom w all_tdm. Nazwij pierwszą kolumnę "coffee", a drugą – "chardonnay".
Utwórz all_m, przekształcając all_tdm w macierz.
Utwórz wykres comparison.cloud() na podstawie all_m, ustawiając colors = c("orange", "blue") i max.words = 50.

Exercise

Wizualizacja słów różniących się między korpusami

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise