入力テキストの前処理

動画で、入力テキストと出力テキストの準備方法を確認しましたね。この演習では、一般的な実践として、全ての文を最大長に合わせてパディングし、情報を失わないようにする方法を扱います。

RNN モデルでは入力のサイズを揃える必要があるため、短い文には末尾にゼロを追加してパディングし、長い文は切り捨てずにそのままにする方法を用います。

また、トークンの表現には文字ではなく単語を使います。これは NMT モデルで一般的なアプローチです。

ポルトガル語のテキストは pt_sentences 変数に、学習済みの tokenizer は input_tokenizer 変数に読み込まれています。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習