1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Převod vektoru na objekt VCorpus (2)

Teď, když jsme převedli vektor na objekt Source, předáme ho další funkci z balíčku tm – VCorpus() – a vytvoříme tzv. volatilní korpus. Docela přímočaré, že?

Objekt VCorpus je vnořený seznam neboli seznam seznamů. Na každém indexu objektu VCorpus se nachází objekt PlainTextDocument, což je seznam obsahující samotný text (content) a odpovídající metadata (meta). Může pomoct si celou strukturu vizualizovat.

Pro zobrazení konkrétního dokumentu (například 10.) použij dvojité hranaté závorky:

coffee_corpus[[10]]

Pro zobrazení samotného textu indexuj seznam dvakrát. Chceš-li místo toho zobrazit metadata dokumentu (například časové razítko), zaměň [1] za [2]. Alternativně můžeš text zobrazit pomocí funkce content(), která druhou sadu závorek nepotřebuje.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Pokyny

100 XP
  • Zavolej funkci VCorpus() na objekt coffee_source a vytvoř tak coffee_corpus.
  • Ověř, že coffee_corpus je objekt typu VCorpus, tím, že ho vypíšeš do konzole.
  • Vypiš 15. prvek coffee_corpus do konzole a ověř, že jde o PlainTextDocument obsahující text a metadata 15. tweetu. Použij dvojité závorky pro subsetting.
  • Vypiš obsah 15. tweetu z coffee_corpus. Pomocí dvojitých závorek vyber správný tweet a pomocí jednoduchých závorek z něj extrahuj obsah.
  • Vypiš content() 10. tweetu z coffee_corpus.