1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Rで学ぶソーシャルメディアデータ分析

Connected

Exercise

ストップワードと余分なスペースを削除する

テキストのコーパスには、通常「a」「an」「the」「of」「but」などの一般的な語が多く含まれます。自然言語処理では、これらをストップワードと呼びます。

ストップワードは、コーパス内のより重要な語に注目して洞察を得られるよう、前処理の段階で通常は削除します。

また、記号、句読点、数字、ストップワードを削除した際に生じる余分なスペースも、コーパスから取り除く必要があります。

前の演習で作成したコーパスは twt_corpus_lwr として読み込まれています。

この演習ではライブラリ tm が読み込まれています。

Instrukcje 1 / 2

undefined XP
    1
    2
  • tm_map() 関数を使って、コーパス twt_corpus_lwr から英語のストップワードを削除します。