1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Machine Learning のための特徴量エンジニアリング

Connected

演習

より長い n-gram を使う

ここまでは、各テキスト内の個々の単語に基づいて特徴量を作成してきました。これは Machine Learning モデルで強力に働きますが、単語を単独で見ると多くの文脈が無視されてしまうのではと心配になるかもしれません。これに対処するには、モデル作成時に n-gram(n 個の連続した単語のまとまり)を使います。例えば:

  • バイグラム: 2 つの連続した単語の並び
  • トライグラム: 3 つの連続した単語の並び

これらは、ngram_range 引数にタプル (n1, n2) を指定することで自動的に作成できます。n1 から n2 の範囲にあるすべての n-gram が含まれます。

指示

100 XP
  • sklearn.feature_extraction.text から CountVectorizer をインポートします。
  • トライグラムのみを考慮して CountVectorizer をインスタンス化します。
  • ベクトライザーを text_clean 列に対して、フィットと変換を一度に実行します。
  • ベクトライザーで生成された特徴量名を出力します。