1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

演習

次元数の分析と前処理

この演習では、前の演習で扱った映画のタグラインを前処理した lem_corpus が用意されています。つまり、タグラインは小文字化され、レンマ化され、ストップワードが除去されています。

あなたのタスクは、これらのレンマ化済みタグラインに対して bag-of-words 表現である bow_lem_matrix を生成し、前の演習で得た bow_matrix の形状(shape)と比較することです。lem_corpus に含まれる最初の5件のレンマ化済みタグラインは、確認のためにコンソールに出力済みです。

指示

100 XP
  • sklearn から CountVectorizer クラスをインポートします。
  • CountVectorizer オブジェクトを作成し、vectorizer という名前を付けます。
  • fit_transform() を使って、lem_corpus から bow_lem_matrix を生成します。