1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Vytvoř term-document matrix

Základy máš skoro za sebou – a pak se konečně vrhneme na zajímavé vizualizace a analýzy postavené na tom, co ses doposud naučil/a!

V tomto cvičení provedeš podobný postup jako předtím, ale tentokrát vytvoříš transpozici document-term matrix. Výsledná term-document matrix má termíny v prvním sloupci a dokumenty jako názvy jednotlivých sloupců napříč tabulkou.

TDM se při analýze jazyka používá velmi často. Důvod je prostý: termínů bývá zpravidla víc než autorů nebo dokumentů, a práce je obecně jednodušší, když má matice více řádků než sloupců. Dobrý způsob, jak začít s analýzou dat, je převést matici na jednoduchou matici pomocí funkce as.matrix() aplikované na TDM.

Pokyny

100 XP
  • Vytvoř coffee_tdm tak, že aplikuješ funkci TermDocumentMatrix() na clean_corp.
  • Vytvoř coffee_m převodem coffee_tdm na matici pomocí as.matrix().
  • Vypiš do konzole rozměry coffee_m. Všimni si počtu řádků a sloupců.
  • Vypiš podmnožinu coffee_m obsahující termíny (řádky) "star" a "starbucks" a dokumenty (sloupce) 25 až 35.