1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

演習

テキスト前処理:ステミング

テキスト分析では、単語の語尾よりも語幹が重要になることがよくあります。たとえば『Animal Farm』は動物についての本ですが、animal's が248回、animal が107回出てくる、というだけでは分析に役立たないかもしれません。

tidy_animal_farm には、『Animal Farm』から取り出した単語をトークン化し、ストップワードを除いた tibble が入っています。次のステップとして、単語にステミングを施し、その結果を確認します。

指示

100 XP
  • dplyr と SnowballC を使って、tidy_animal_farm の単語にステミングを適用します。
  • tidy_animal_farm から元の単語頻度を出力します。
  • stemmed_animal_farm から新しい単語頻度を出力します。