Opakování TM (I)

V kurzu Text Mining: Bag of Words ses naučil/a, že korpus je soubor textů, a pracoval/a jsi s funkcemi pro předzpracování textu. Pro připomenutí: jeden ze způsobů, jak korpus vytvořit a vyčistit, je pomocí níže uvedených funkcí. I když jde o jiný kurz, analýza sentimentu je součástí text miningu, takže malé opakování přijde vhod.

Převeď znakový vektor na textový zdroj pomocí VectorSource().
Převeď textový zdroj na korpus pomocí VCorpus().
Odstraň nežádoucí znaky z korpusu pomocí čisticích funkcí jako removePunctuation() a stripWhitespace() z balíčku tm nebo replace_abbreviation() z balíčku qdap.

V tomto cvičení je připravena vlastní funkce clean_corpus(), která standardní předzpracovací funkce sdružuje pro snazší použití.

clean_corpus() přijímá výstup funkce VCorpus() a aplikuje na něj čisticí funkce. Příklad:

processed_corpus <- clean_corpus(my_corpus)

V R session máš k dispozici textový vektor tm_define se dvěma krátkými dokumenty a funkci clean_corpus().

Vytvoř objekt tm_vector aplikováním VectorSource() na tm_define.
Vytvoř tm_corpus pomocí VCorpus() aplikovaného na tm_vector.
Použij content() k zobrazení obsahu prvního dokumentu v tm_corpus.
- K dokumentům v korpusu přistupuješ pomocí syntaxe seznamu – používej dvojité hranaté závorky, např. [[1]].
Vyčisti text korpusu pomocí vlastní funkce clean_corpus() aplikované na tm_corpus. Výsledek ulož do objektu tm_clean.
Znovu se podívej na první dokument nového objektu tm_clean a porovnej, jak se text po aplikaci clean_corpus() změnil.

연습 문제

Opakování TM (I)

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제