1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

演習

映画レビューのBoWベクトル

この演習では、映画レビューからなる2つの pandas Series、X_train と X_test が与えられています。前者は学習用、後者はテスト用のレビューです。レビューを前処理し、CountVectorizer を使ってこれら2つの集合の BoW ベクトルを作成してください。

BoW ベクトル行列 X_train_bow と X_test_bow を作成できれば、Machine Learning モデルを適用して感情分析を行う準備が整います。

指示

100 XP
  • sklearn ライブラリから CountVectorizer をインポートします。
  • すべての単語を小文字に変換し、english のストップワードを除去するように設定して、vectorizer という名前の CountVectorizer オブジェクトを作成します。
  • X_train を用いて vectorizer を学習し、その後に変換して、BoW ベクトル集合 X_train_bow を作成します。
  • vectorizer を使って X_test を変換し、BoW ベクトル集合 X_test_bow を作成します。