1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

演習

テキスト分析で失敗する例

これまでに、テキスト分析の前にストップワードを除去する重要性について学びました。直近の章では、コサイン類似度を使ってテキスト同士の近さを特定する方法を復習しました。

この演習では、テキスト分析を正しく使わないとどうなるかを体験します。ここでは、ストップワードを除去せずに、書籍「Animal Farm」の各章のコサイン類似度を計算します。

指示

100 XP
  • 提供された単語カウントを作成するコードを確認してください。ここまでは完了済みです。
  • widyr の pairwise_similarity() 関数を使い、chapter 列の各章についてコサイン類似度を計算してください。
  • 結果を similarity の値が高いものから順に並べ替えてください。
  • similarity の値の平均(mean)を計算してください。