1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

演習

テキスト分類のための TfidfVectorizer

前の演習で作成した疎な CountVectorizer と同様に、ドキュメントの tf-idf ベクトルを作成します。ここでは TfidfVectorizer を設定し、その機能のいくつかを確認します。

この演習では、pandas と sklearn を使い、前の演習で作成したのと同じ X_train、y_train と X_test、y_test の DataFrame と Series を使用します。

指示

100 XP
  • sklearn.feature_extraction.text から TfidfVectorizer をインポートします。
  • tfidf_vectorizer という名前の TfidfVectorizer オブジェクトを作成します。その際、キーワード引数として stop_words="english" と max_df=0.7 を指定します。
  • 学習データに対してフィットし、変換します。
  • テストデータを変換します。
  • tfidf_vectorizer の最初の10個の特徴量を表示します。
  • tfidf_train の tf-idf 学習データについて、.A(配列)属性をスライスして最初の5つのベクトルを表示します。