Zachycení metadat v tm

Podle toho, čeho chceš dosáhnout, možná budeš chtít při vytváření korpusu uchovat metadata o dokumentu.

Aby se metadata na úrovni dokumentu zachytila správně, musí mít sloupce přesně tato jména a pořadí:

doc_id – jedinečný řetězec pro každý dokument
text – text ke zkoumání
... – všechny ostatní sloupce se automaticky zanesou jako metadata.

Někdy budeš muset sloupce přejmenovat, aby odpovídaly požadavkům funkce DataframeSource(). K tomu se hodí funkce names().

V tvém pracovním prostoru existuje objekt tweets jako datový rámec se sloupci "num", "text", "screenName" a "created".

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Přejmenuj první sloupec objektu tweets na "doc_id".
Nastav schéma dokumentu pomocí DataframeSource() na menší datový rámec tweets.
Z kolekce dokumentů vytvoř nestálý korpus vnořený do vlastní funkce clean_corpus().
Pomocí funkce content() s dvojitými závorkami, například text_corpus[[1]], zobraz vyčištěný prostý text prvního tweetu.
Ověř, že se všechna metadata zachytila správně, a to pomocí funkce meta() na prvním dokumentu s jednoduchými závorkami.

Pamatuj, že při přístupu k části korpusu záleží na tom, jestli použiješ dvojité, nebo jednoduché závorky! V tomto cvičení používej dvojité závorky s content() a jednoduché závorky s meta().

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])

Upravit a spustit kód