1. Learn
  2. /
  3. Courses
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

Exercise

TFIDF の練習

先ほど、原油に関する記事を bag-of-words で表現しました。TFIDF の計算はこの bag-of-words 表現に基づきますが、ある単語が記事内にどれくらい出現するか、そして記事全体のコレクションでその単語がどれくらい出現するかも考慮します。

異なる記事を比較するときに、どの単語がどれだけ意味を持つかを判断するために、原油に関する 20 本の記事からなる crude の各単語について TFIDF 重みを計算してください。

Instructions

100 XP
  • crude について、article_id と word ごとに TFIDF 値を計算し、結果の tibble を crude_weights として保存します。
  • arrange() 関数を使って、crude_weights を tf_idf を降順で並べ替えます。
  • 最も小さい非ゼロの tf_idf 値に絞り込むように、crude_weights をフィルタリングします。ここでも arrange 関数を使いましょう。