Opakování TM (II)

Teď vytvoříme Document Term Matrix (DTM). V DTM platí:

Každý řádek matice představuje jeden dokument.
Každý sloupec odpovídá jedinečnému slovnímu tokenu.
Hodnoty v matici zachycují, jak často daný dokument používá konkrétní slovo.

DTM je základem mnoha analýz typu bag of words. Později v kurzu se setkáš i s příbuznou Term Document Matrix (TDM), což je její transpozice — sloupce tam reprezentují dokumenty a řádky jedinečné slovní tokeny.

DTM bys měl/a sestavovat až po vyčištění korpusu (pomocí clean_corpus()). Stačí zavolat DocumentTermMatrix() na objekt korpusu:

tm_dtm <- DocumentTermMatrix(tm_clean)

Pokud potřebuješ podrobnější zopakování látky, podívej se na kurz Text Mining with Bag-of-Words in R. Doufáme, že tato dvě cvičení tě dostatečně připravila na cestu světem analýzy sentimentu!

Měj na paměti, že jde o reálná data z Twitteru, a proto existuje riziko, že mohou obsahovat vulgární nebo jinak nevhodný obsah (v tomto cvičení i v dalších, která také pracují s reálnými twitterovými daty).

Připravili jsme pro tebe objekt VCorpus() s názvem clean_text, který obsahuje 1 000 tweetů zmiňujících kávu. Tweety prošly čištěním pomocí dříve popsaných kroků předzpracování. Tvým úkolem je z tohoto korpusu vytvořit DTM.

Aplikuj DocumentTermMatrix() na korpus clean_text a vytvoř DTM váženou četností termínů — ulož ji jako tf_dtm.
Převeď objekt DocumentTermMatrix() na jednoduchou matici pomocí as.matrix() a výsledek ulož jako tf_dtm_m.
Zkontroluj rozměry matice pomocí dim().
Pomocí indexování hranatými závorkami zobraz část matice:
Vyber řádky 16 až 20 a sloupce 2975 až 2985.
Všimni si hodnoty četnosti slova „working."

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení