1. Учиться
  2. /
  3. Courses
  4. /
  5. Kerasで学ぶMachine Translation

Connected

Exercise

文のパディング

これから sents2seqs() という関数を実装します。後でこの関数を使って、ニューラル機械翻訳(NMT)モデルが受け付ける形式へデータを手軽に変換します。sents2seqs() は文文字列のリストを受け取り、

  • 文をIDのシーケンスのリストに変換し、
  • 文の長さがそろうようにパディングし、
  • 必要に応じてIDをone-hotベクトルに変換します。

すでに学習済みの Tokenizer である en_tok が用意されています。もう1点、sents2seqs() を実装するときに未使用の引数 input_type があることに注意してください。後でこの input_type は、シーケンス長や語彙サイズなど、言語に依存するパラメータを切り替えるために使います。

Инструкции

100 XP
  • en_tok Tokenizer を使って sentences をシーケンスに変換します。
  • シーケンスを固定長 en_len にパディングし、パディングの種類は pad_type を使用し、切り詰めは post にします。
  • to_categorical() 関数を使って、preproc_text の単語IDを長さ en_vocab のone-hotベクトルに変換します。
  • sents2seqs() メソッドを用いて、sentence を pre パディングでパディング済みシーケンスに変換します。