1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Vše dohromady: dendrogram z textu

Je čas ukázat, co umíš, a sestavit svůj první textový dendrogram. Nezapomeň, že dendrogramy zjednodušují informace, aby ti pomohly pochopit data – podobně jako průměr ti o populaci něco řekne, ale ne vše. Oba přístupy mohou být zavádějící. V textu se často objevují nesmyslné shluky, ale občas narazíš i na skutečně hodnotné.

Specifičností objektů TDM a DTM je, že je musíš nejdřív převést na matice (pomocí as.matrix()), než je použiješ s funkcí dist().

U tweetů o chardonnay tě možná překvapilo, že se v word cloudu objevil Marvin Gaye, legenda soulové hudby. Podívejme se, jestli to samé zachytí i dendrogram.

Pokyny

100 XP
  • Vytvoř tweets_tdm2 tak, že na tweets_tdm aplikuješ funkci removeSparseTerms(). Použij sparse = 0.975.
  • Vytvoř tdm_m tak, že pomocí as.matrix() převedeš tweets_tdm2 do podoby matice.
  • Vytvoř tweets_dist obsahující vzdálenosti z tdm_m pomocí funkce dist().
  • Vytvoř objekt hierarchického shlukování nazvaný hc pomocí hclust() aplikovaného na tweets_dist.
  • Vykresli dendrogram pomocí plot() a hc.