1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶSentiment Analysis

Connected

演習

映画レビューの語彙サイズ

この演習では、movies のレビュー・データセットのサンプルを使って、語彙(ボキャブラリ)のサイズを制限するさまざまな方法を練習します。1列目は review で型は object、2列目は label で、否定的なレビューは 0、肯定的なレビューは 1 です。

ここで使う3つの方法はいずれも、テキスト列を新しい数値列に変換し、各レビュー内で単語やフレーズが出現した回数を表現します。最終的に、各方法は新しい特徴量の数がそれぞれ異なる結果になります。

指示1 / 3

undefined XP
  • 1

    movies データセットを使い、語彙サイズを 100 に制限してください。

  • 2

    movies データセットを使い、200件以下のドキュメントにしか出現しない用語のみを含むように、語彙サイズを制限してください。

  • 3

    movies データセットを使い、50件未満のドキュメントにしか出現しない用語を無視するように、語彙サイズを制限してください。