1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Vytvoř matici dokumentů a termínů

Doufáme, že tě základy text miningu zatím příliš neunavily! Pro jistotu si dejme další kávu a stavme se ve Starbucks – tentokrát při sestavování matice dokumentů a termínů z tweetů o kávě.

Vycházíme ze souboru coffee.csv, na který jsme aplikovali běžné transformace a získali tak čistý korpus s názvem clean_corp.

Matice dokumentů a termínů (DTM) se hodí tehdy, když chceš mít každý dokument reprezentovaný jako řádek. To se může hodit například při porovnávání autorů nebo pokud jsou data seřazena chronologicky a chceš zachovat časovou řadu. Balíček tm používá třídu „simple triplet matrix". V praxi je ale často snazší pracovat s objektem po jeho přetypování pomocí as.matrix().

Pokyny

100 XP
  • Vytvoř coffee_dtm aplikováním funkce DocumentTermMatrix() na clean_corp.
  • Vytvoř coffee_m jako maticovou verzi coffee_dtm pomocí as.matrix().
  • Vypiš do konzole rozměry coffee_m pomocí funkce dim(). Všimni si počtu řádků a sloupců.
  • Vypiš podmnožinu coffee_m obsahující dokumenty (řádky) 25 až 35 a termíny (sloupce) "star" a "starbucks".