Tf-idf

単語の出現回数はモデル作成に有用ですが、頻出する単語が結果を不必要に歪めてしまうことがあります。こうした一般的な単語がモデルを支配しないように、正規化の一種を用いることができます。このレッスンでは、動画で解説したとおり、Term frequency-inverse document frequency（Tf-idf）を使用します。Tf-idf は、一般的な単語の値を下げ、あまり多くの文書に現れない単語の重みを高める効果があります。