1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

演習

映画のタグラインでBoWモデルを作る

この演習では、7000以上の映画のタグラインからなる corpus が用意されています。あなたの仕事は、これらのタグラインのbag-of-words表現である bow_matrix を作成することです。この演習では、テキストの前処理は行わず、直接 bow_matrix を生成します。

あわせて、生成された bow_matrix の形状も確認します。corpus の最初の5件のタグラインは、確認用にコンソールへ出力済みです。

指示

100 XP
  • sklearn から CountVectorizer クラスをインポートします。
  • CountVectorizer オブジェクトを作成し、名前を vectorizer とします。
  • fit_transform() を使って、corpus から bow_matrix を生成します。