1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

演習

映画のタグラインに対するn-gramモデル

この演習では、9,000件以上の映画のタグラインからなる corpus が用意されています。これに対して、n=1、n=2、n=3 までの n-gram モデルを作成し、それぞれのモデルの特徴量数を確認します。

その後、各モデルで生成された特徴量数を比較します。

指示

100 XP
  • n=1 までの n-gram モデルを作成し、ng1 という名前を付けてください。
  • n=2 までの n-gram モデルを作成し、ng2 という名前を付けてください。
  • n=3 までの n-gram モデルを作成し、ng3 という名前を付けてください。
  • 各モデルの特徴量数を出力してください。