Vizualizace odlišných slov

Co kdybys chtěl/a vizualizovat slova, která si tweety navzájem nesdílejí? K tomu taky poslouží comparison.cloud() — postup je velmi podobný, s jedním hlavním rozdílem.

Sama jako při hledání společných slov začneš tím, že tweety sloučíš do samostatných korpusů a zkombinuješ je do jednoho objektu VCorpus(). Pak aplikuješ funkci clean_corpus() a výsledek uspořádáš do TermDocumentMatrix.

Aby bylo jasné, která slova patří ke coffee a která k chardonnay, nastav názvy sloupců TDM takto:

colnames(all_tdm) <- c("chardonnay", "coffee")

Nakonec objekt převeď na matici pomocí as.matrix(), aby ho bylo možné předat funkci comparison.cloud(). Pro každý samostatný korpus předaný do comparison.cloud() můžeš určit barvu, například colors = c("red", "yellow", "green"), aby byly sekce od sebe snadno rozeznatelné.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

all_corpus je předem načteno v tvém pracovním prostředí.

Vytvoř all_clean tak, že na all_corpus aplikuješ předdefinovanou funkci clean_corpus.
Vytvoř all_tdm jako TermDocumentMatrix z all_clean.
Pomocí colnames() přejmenuj jednotlivé korpusy v rámci all_tdm. Prvnímu sloupci dej název "coffee" a druhému "chardonnay".
Vytvoř all_m převodem all_tdm do podoby matice.
Vytvoř comparison.cloud() s použitím all_m, nastav colors = c("orange", "blue") a max.words = 50.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Clean the corpus
___ <- ___(___)

# Create all_tdm
___ <- ___(___)

# Give the columns distinct names
___(___) <- ___

# Create all_m
___ <- ___(___)

# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)

Upravit a spustit kód