文のパディング

これから sents2seqs() という関数を実装します。後でこの関数を使って、ニューラル機械翻訳（NMT）モデルが受け付ける形式へデータを手軽に変換します。sents2seqs() は文文字列のリストを受け取り、

文をIDのシーケンスのリストに変換し、
文の長さがそろうようにパディングし、
必要に応じてIDをone-hotベクトルに変換します。

すでに学習済みの Tokenizer である en_tok が用意されています。もう1点、sents2seqs() を実装するときに未使用の引数 input_type があることに注意してください。後でこの input_type は、シーケンス長や語彙サイズなど、言語に依存するパラメータを切り替えるために使います。

en_tok Tokenizer を使って sentences をシーケンスに変換します。
シーケンスを固定長 en_len にパディングし、パディングの種類は pad_type を使用し、切り詰めは post にします。
to_categorical() 関数を使って、preproc_text の単語IDを長さ en_vocab のone-hotベクトルに変換します。
sents2seqs() メソッドを用いて、sentence を pre パディングでパディング済みシーケンスに変換します。

演習

文のパディング

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習