1. 학습
  2. /
  3. 강의
  4. /
  5. Sentiment Analysis in R

Connected

연습 문제

Opakování TM (I)

V kurzu Text Mining: Bag of Words ses naučil/a, že korpus je soubor textů, a pracoval/a jsi s funkcemi pro předzpracování textu. Pro připomenutí: jeden ze způsobů, jak korpus vytvořit a vyčistit, je pomocí níže uvedených funkcí. I když jde o jiný kurz, analýza sentimentu je součástí text miningu, takže malé opakování přijde vhod.

  • Převeď znakový vektor na textový zdroj pomocí VectorSource().
  • Převeď textový zdroj na korpus pomocí VCorpus().
  • Odstraň nežádoucí znaky z korpusu pomocí čisticích funkcí jako removePunctuation() a stripWhitespace() z balíčku tm nebo replace_abbreviation() z balíčku qdap.

V tomto cvičení je připravena vlastní funkce clean_corpus(), která standardní předzpracovací funkce sdružuje pro snazší použití.

clean_corpus() přijímá výstup funkce VCorpus() a aplikuje na něj čisticí funkce. Příklad:

processed_corpus <- clean_corpus(my_corpus)

지침

100 XP

V R session máš k dispozici textový vektor tm_define se dvěma krátkými dokumenty a funkci clean_corpus().

  • Vytvoř objekt tm_vector aplikováním VectorSource() na tm_define.
  • Vytvoř tm_corpus pomocí VCorpus() aplikovaného na tm_vector.
  • Použij content() k zobrazení obsahu prvního dokumentu v tm_corpus.
    • K dokumentům v korpusu přistupuješ pomocí syntaxe seznamu – používej dvojité hranaté závorky, např. [[1]].
  • Vyčisti text korpusu pomocí vlastní funkce clean_corpus() aplikované na tm_corpus. Výsledek ulož do objektu tm_clean.
  • Znovu se podívej na první dokument nového objektu tm_clean a porovnej, jak se text po aplikaci clean_corpus() změnil.