1. Learn
  2. /
  3. Courses
  4. /
  5. Python で学ぶ Machine Learning のための特徴量エンジニアリング

Connected

Exercise

Tf-idf

単語の出現回数はモデル作成に有用ですが、頻出する単語が結果を不必要に歪めてしまうことがあります。こうした一般的な単語がモデルを支配しないように、正規化の一種を用いることができます。このレッスンでは、動画で解説したとおり、Term frequency-inverse document frequency(Tf-idf)を使用します。Tf-idf は、一般的な単語の値を下げ、あまり多くの文書に現れない単語の重みを高める効果があります。

Instructions

100 XP
  • sklearn.feature_extraction.text から TfidfVectorizer をインポートします。
  • 特徴量数を100に制限し、英語のストップワードを除去するように TfidfVectorizer をインスタンス化します。
  • text_clean 列に対して、ベクタイザを1ステップで学習・適用します。
  • 単語の重みを含み、特徴量名を列名にした DataFrame tv_df を作成します。