1. 学ぶ
  2. /
  3. コース
  4. /
  5. Kerasで学ぶMachine Translation

Connected

演習

Tokenizerで語彙を制御する

Tokenizer の動作をもう少し掘り下げてみましょう。この演習では、学習済みの Tokenizer を使って任意の文をシーケンスに変換する方法を学びます。さらに、Tokenizer の語彙サイズを制御する方法も確認します。加えて、Tokenizer の語彙サイズを制限したときに、語彙外(OOV)の単語がどう扱われるかを調べます。

この演習では、以前に実装した en_tok という Tokenizer が用意されています。Tokenizer はすでにインポート済みです。

指示

100 XP
  • 以前の en_tok Tokenizer を使って、次の文をシーケンスに変換してください:she likes grapefruit , peaches , and lemons .
  • 語彙サイズを 50、語彙外(OOV)トークンを UNK とする新しい Tokenizer、en_tok_new を作成してください。
  • 新しい Tokenizer を en_text データで学習(fit)させてください。
  • en_tok_new を使って、文 she likes grapefruit , peaches , and lemons . をシーケンスに変換してください。