TM のおさらい (I)

Text Mining: Bag of Words コースでは、コーパスはテキストの集合であり、テキストの前処理に使う関数を学びました。復習として、コーパスを作成してクリーンアップする一つの方法を以下に示します。コースは異なりますが、感情分析はテキストマイニングの一部なので、おさらいは役に立ちます。

文字ベクトルを VectorSource() でテキストソースに変換します。
テキストソースを VCorpus() でコーパスに変換します。
tm の removePunctuation() や stripWhitespace()、qdap の replace_abbreviation() のようなクリーニング関数で、コーパスから不要な文字を取り除きます。

この演習では、標準的な前処理関数をまとめて適用できるように、カスタム関数 clean_corpus() が用意されています。

clean_corpus() は VCorpus() の出力を受け取り、クリーニング関数を適用します。例：

processed_corpus <- clean_corpus(my_corpus)

R セッションには、2 つの短いドキュメントを含むテキストベクトル tm_define と、関数 clean_corpus() が用意されています。

VectorSource() を tm_define に適用して、tm_vector というオブジェクトを作成します。
tm_vector に対して VCorpus() を使い、tm_corpus を作成します。
content() を使って、tm_corpus の最初のドキュメントの内容を確認します。
- コーパス内のドキュメントはリスト構文でアクセスするので、[[1]] のように二重の角かっこを使います。
tm_corpus にカスタム関数 clean_corpus() を適用してコーパスのテキストをクリーンアップします。新しいオブジェクト名は tm_clean とします。
新しい tm_clean オブジェクトの最初のドキュメントをもう一度確認し、clean_corpus() 適用後にテキストがどう変化したかを見てみましょう。

연습 문제

TM のおさらい (I)

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제