Převod vektoru na objekt VCorpus (2)

Teď, když jsme převedli vektor na objekt Source, předáme ho další funkci z balíčku tm – VCorpus() – a vytvoříme tzv. volatilní korpus. Docela přímočaré, že?

Objekt VCorpus je vnořený seznam neboli seznam seznamů. Na každém indexu objektu VCorpus se nachází objekt PlainTextDocument, což je seznam obsahující samotný text (content) a odpovídající metadata (meta). Může pomoct si celou strukturu vizualizovat.

Pro zobrazení konkrétního dokumentu (například 10.) použij dvojité hranaté závorky:

coffee_corpus[[10]]

Pro zobrazení samotného textu indexuj seznam dvakrát. Chceš-li místo toho zobrazit metadata dokumentu (například časové razítko), zaměň [1] za [2]. Alternativně můžeš text zobrazit pomocí funkce content(), která druhou sadu závorek nepotřebuje.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Zavolej funkci VCorpus() na objekt coffee_source a vytvoř tak coffee_corpus.
Ověř, že coffee_corpus je objekt typu VCorpus, tím, že ho vypíšeš do konzole.
Vypiš 15. prvek coffee_corpus do konzole a ověř, že jde o PlainTextDocument obsahující text a metadata 15. tweetu. Použij dvojité závorky pro subsetting.
Vypiš obsah 15. tweetu z coffee_corpus. Pomocí dvojitých závorek vyber správný tweet a pomocí jednoduchých závorek z něj extrahuj obsah.
Vypiš content() 10. tweetu z coffee_corpus.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

## coffee_source is already in your workspace

# Make a volatile corpus from coffee_source
coffee_corpus <- ___

# Print out coffee_corpus
___

# Print the 15th tweet in coffee_corpus
___

# Print the contents of the 15th tweet in coffee_corpus
___

# Now use content to review the plain text of the 10th tweet
___(___[[___]])

Upravit a spustit kód