1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Připrav TDM vhodné pro dendrogram

Teď, když rozumíš jednotlivým krokům při tvorbě dendrogramu, můžeš je aplikovat na text. Nejdřív ale musíš omezit počet slov v TDM pomocí funkce removeSparseTerms() z balíčku tm. Proč by bylo vhodné upravit řídkost TDM/DTM?

TDM i DTM jsou řídké matice – obsahují převážně nuly. Vzpomeň si, že 1 000 tweetů může vést ke vzniku TDM s více než 3 000 termíny! Tak přeplněný dendrogram se bude špatně číst, a to zejména při práci s větším objemem textu.

V profesionální praxi bývá dobrý dendrogram postavený na TDM s 25 až 70 termíny. Více než 70 termínů může vizualizaci znepřehlednit až znehodnotit. Naopak méně než 25 termínů pravděpodobně nestačí k tomu, aby dendrogram odhalil relevantní a smysluplné shluky.

Při použití funkce removeSparseTerms() určuje parametr sparse, kolik termínů v TDM zůstane. Čím blíže je hodnota sparse k 1, tím více termínů se zachová. Tato hodnota představuje procentuální hranici podílu nul pro každý termín v TDM.

Pokyny

100 XP

tweets_tdm bylo vytvořeno z tweetů o chardonnay.

  • Vypiš do konzole rozměry tweets_tdm.
  • Vytvoř tdm1 pomocí removeSparseTerms() s parametrem sparse = 0.95 aplikovaným na tweets_tdm.
  • Vytvoř tdm2 pomocí removeSparseTerms() s parametrem sparse = 0.975 aplikovaným na tweets_tdm.
  • Vypiš tdm1 do konzole a zjisti, kolik termínů zůstalo.
  • Vypiš tdm2 do konzole a zjisti, kolik termínů zůstalo.