Vytvoř matici dokumentů a termínů

Doufáme, že tě základy text miningu zatím příliš neunavily! Pro jistotu si dejme další kávu a stavme se ve Starbucks – tentokrát při sestavování matice dokumentů a termínů z tweetů o kávě.

Vycházíme ze souboru coffee.csv, na který jsme aplikovali běžné transformace a získali tak čistý korpus s názvem clean_corp.

Matice dokumentů a termínů (DTM) se hodí tehdy, když chceš mít každý dokument reprezentovaný jako řádek. To se může hodit například při porovnávání autorů nebo pokud jsou data seřazena chronologicky a chceš zachovat časovou řadu. Balíček tm používá třídu „simple triplet matrix". V praxi je ale často snazší pracovat s objektem po jeho přetypování pomocí as.matrix().

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Vytvoř coffee_dtm aplikováním funkce DocumentTermMatrix() na clean_corp.
Vytvoř coffee_m jako maticovou verzi coffee_dtm pomocí as.matrix().
Vypiš do konzole rozměry coffee_m pomocí funkce dim(). Všimni si počtu řádků a sloupců.
Vypiš podmnožinu coffee_m obsahující dokumenty (řádky) 25 až 35 a termíny (sloupce) "star" a "starbucks".

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create the document-term matrix from the corpus
coffee_dtm <- ___

# Print out coffee_dtm data
coffee_dtm

# Convert coffee_dtm to a matrix
coffee_m <- ___

# Print the dimensions of coffee_m
___

# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]

Upravit a spustit kód