1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

演習

テキスト前処理:ストップワードを除去する

ストップワードは文章にはつきものです。ただし、2つのテキストの類似度を測ったり、テキスト内のテーマを見つけたりする際には、ストップワードが邪魔になることがあります。たとえば『Animal Farm』の第1章は2,636語しかありませんが、そのうち約200語が "the" です。

通常、テキスト分析では "the" はあまり役に立ちません。この演習では、『Animal Farm』第1章からストップワードを取り除いてみます。

指示1 / 3

undefined XP
    1
    2
    3
  • 列 text_column のテキストを単語にトークナイズしてください。