テキスト分類のための TfidfVectorizer

前の演習で作成した疎な CountVectorizer と同様に、ドキュメントの tf-idf ベクトルを作成します。ここでは TfidfVectorizer を設定し、その機能のいくつかを確認します。

この演習では、pandas と sklearn を使い、前の演習で作成したのと同じ X_train、y_train と X_test、y_test の DataFrame と Series を使用します。

sklearn.feature_extraction.text から TfidfVectorizer をインポートします。
tfidf_vectorizer という名前の TfidfVectorizer オブジェクトを作成します。その際、キーワード引数として stop_words="english" と max_df=0.7 を指定します。
学習データに対してフィットし、変換します。
テストデータを変換します。
tfidf_vectorizer の最初の10個の特徴量を表示します。
tfidf_train の tf-idf 学習データについて、.A（配列）属性をスライスして最初の5つのベクトルを表示します。