テキスト分類のための CountVectorizer

テキスト分類器の作成を始めましょう。データは df という DataFrame に読み込まれています。どの列が使えそうかを調べるために、IPython シェルで確認してください。.head() メソッドが特に有用です。

この演習では、pandas と scikit-learn を使って、シンプルな教師ありモデルの学習と評価に用いる疎なテキストベクトライザを作成します。まずは CountVectorizer を設定し、その機能の一部を確認します。

sklearn.feature_extraction.text から CountVectorizer を、sklearn.model_selection から train_test_split をインポートします。
df の .label 属性を y に代入して、ラベル用の Series y を作成します。
特徴量として df["text"]、ラベルとして y を用いて、train_test_split() で学習用とテスト用のデータを作成します。test_size は 0.33、random_state は 53 にします。
CountVectorizer オブジェクト count_vectorizer を作成します。ストップワードを除去するために、キーワード引数 stop_words="english" を必ず指定します。
CountVectorizer オブジェクトの .fit_transform() メソッドで学習データ X_train を学習・変換します。テストデータ X_test には .transform() メソッドを使います。
count_vectorizer の .get_feature_names() メソッドを使って、最初の 10 個の特徴量を表示します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習