1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Vizualizace odlišných slov

Co kdybys chtěl/a vizualizovat slova, která si tweety navzájem nesdílejí? K tomu taky poslouží comparison.cloud() — postup je velmi podobný, s jedním hlavním rozdílem.

Sama jako při hledání společných slov začneš tím, že tweety sloučíš do samostatných korpusů a zkombinuješ je do jednoho objektu VCorpus(). Pak aplikuješ funkci clean_corpus() a výsledek uspořádáš do TermDocumentMatrix.

Aby bylo jasné, která slova patří ke coffee a která k chardonnay, nastav názvy sloupců TDM takto:

colnames(all_tdm) <- c("chardonnay", "coffee")

Nakonec objekt převeď na matici pomocí as.matrix(), aby ho bylo možné předat funkci comparison.cloud(). Pro každý samostatný korpus předaný do comparison.cloud() můžeš určit barvu, například colors = c("red", "yellow", "green"), aby byly sekce od sebe snadno rozeznatelné.

Pokyny

100 XP

all_corpus je předem načteno v tvém pracovním prostředí.

  • Vytvoř all_clean tak, že na all_corpus aplikuješ předdefinovanou funkci clean_corpus.
  • Vytvoř all_tdm jako TermDocumentMatrix z all_clean.
  • Pomocí colnames() přejmenuj jednotlivé korpusy v rámci all_tdm. Prvnímu sloupci dej název "coffee" a druhému "chardonnay".
  • Vytvoř all_m převodem all_tdm do podoby matice.
  • Vytvoř comparison.cloud() s použitím all_m, nastav colors = c("orange", "blue") a max.words = 50.