1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Vizualizace společných slov

Teď, když máš korpus naplněný slovy ze souborů s tweety o chardonnay i kávě, můžeš korpus vyčistit, převést ho na TermDocumentMatrix, a pak na matici – to vše jako přípravu pro funkci commonality.cloud().

Funkce commonality.cloud() přijímá tento maticový objekt spolu s dalšími argumenty, jako jsou max.words a colors, které ti umožní graf dále přizpůsobit.

commonality.cloud(tdm_matrix, max.words = 100, colors = "springgreen")

Pokyny

100 XP
  • Vytvoř all_clean tak, že aplikuješ předdefinovanou funkci clean_corpus() na all_corpus.
  • Vytvoř all_tdm jako TermDocumentMatrix z objektu all_clean.
  • Vytvoř all_m převodem all_tdm na maticový objekt.
  • Vytvoř commonality.cloud() z all_m s parametry max.words = 100 a colors = "steelblue1".