出力テキストの準備

この演習では、翻訳モデルで使用する出力テキストを準備します。テキストをインデックス列に変換するだけでなく、各インデックスをワンホットエンコードする必要があります。

英語のテキストは変数 en_sentences に、学習済みのトークナイザーは output_tokenizer に、英語の語彙サイズは en_vocab_size に読み込まれています。

また、出力言語の最初の変換処理（テキストをインデックス列に変換）を行う関数も用意済みです。関数は transform_text_to_sequences() として環境に読み込まれており、2つの引数を取ります。sentences は英語の文のリストを、tokenizer は keras.preprocessing.text モジュールの学習済み Tokenizer オブジェクトを想定しています。