1. Learn
  2. /
  3. Courses
  4. /
  5. Rで学ぶSentiment Analysis

Connected

Exercise

TM のおさらい (I)

Text Mining: Bag of Words コースでは、コーパスはテキストの集合であり、テキストの前処理に使う関数を学びました。復習として、コーパスを作成してクリーンアップする一つの方法を以下に示します。コースは異なりますが、感情分析はテキストマイニングの一部なので、おさらいは役に立ちます。

  • 文字ベクトルを VectorSource() でテキストソースに変換します。
  • テキストソースを VCorpus() でコーパスに変換します。
  • tm の removePunctuation() や stripWhitespace()、qdap の replace_abbreviation() のようなクリーニング関数で、コーパスから不要な文字を取り除きます。

この演習では、標準的な前処理関数をまとめて適用できるように、カスタム関数 clean_corpus() が用意されています。

clean_corpus() は VCorpus() の出力を受け取り、クリーニング関数を適用します。例:

processed_corpus <- clean_corpus(my_corpus)

Instructions

100 XP

R セッションには、2 つの短いドキュメントを含むテキストベクトル tm_define と、関数 clean_corpus() が用意されています。

  • VectorSource() を tm_define に適用して、tm_vector というオブジェクトを作成します。
  • tm_vector に対して VCorpus() を使い、tm_corpus を作成します。
  • content() を使って、tm_corpus の最初のドキュメントの内容を確認します。
    • コーパス内のドキュメントはリスト構文でアクセスするので、[[1]] のように二重の角かっこを使います。
  • tm_corpus にカスタム関数 clean_corpus() を適用してコーパスのテキストをクリーンアップします。新しいオブジェクト名は tm_clean とします。
  • 新しい tm_clean オブジェクトの最初のドキュメントをもう一度確認し、clean_corpus() 適用後にテキストがどう変化したかを見てみましょう。