1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Sentiment Analysis in R

Connected

cvičení

Opakování TM (II)

Teď vytvoříme Document Term Matrix (DTM). V DTM platí:

  • Každý řádek matice představuje jeden dokument.
  • Každý sloupec odpovídá jedinečnému slovnímu tokenu.
  • Hodnoty v matici zachycují, jak často daný dokument používá konkrétní slovo.

DTM je základem mnoha analýz typu bag of words. Později v kurzu se setkáš i s příbuznou Term Document Matrix (TDM), což je její transpozice — sloupce tam reprezentují dokumenty a řádky jedinečné slovní tokeny.

DTM bys měl/a sestavovat až po vyčištění korpusu (pomocí clean_corpus()). Stačí zavolat DocumentTermMatrix() na objekt korpusu:

tm_dtm <- DocumentTermMatrix(tm_clean)

Pokud potřebuješ podrobnější zopakování látky, podívej se na kurz Text Mining with Bag-of-Words in R. Doufáme, že tato dvě cvičení tě dostatečně připravila na cestu světem analýzy sentimentu!

Měj na paměti, že jde o reálná data z Twitteru, a proto existuje riziko, že mohou obsahovat vulgární nebo jinak nevhodný obsah (v tomto cvičení i v dalších, která také pracují s reálnými twitterovými daty).

Pokyny

100 XP

Připravili jsme pro tebe objekt VCorpus() s názvem clean_text, který obsahuje 1 000 tweetů zmiňujících kávu. Tweety prošly čištěním pomocí dříve popsaných kroků předzpracování. Tvým úkolem je z tohoto korpusu vytvořit DTM.

  • Aplikuj DocumentTermMatrix() na korpus clean_text a vytvoř DTM váženou četností termínů — ulož ji jako tf_dtm.
  • Převeď objekt DocumentTermMatrix() na jednoduchou matici pomocí as.matrix() a výsledek ulož jako tf_dtm_m.
  • Zkontroluj rozměry matice pomocí dim().
  • Pomocí indexování hranatými závorkami zobraz část matice:
  • Vyber řádky 16 až 20 a sloupce 2975 až 2985.
  • Všimni si hodnoty četnosti slova „working."