モデル入力のためのテキスト前処理

これまでに、単語からインデックス、インデックスから単語への辞書を作成する方法を学びました。この演習では、テキストを文字単位に分割し、教師あり学習用にデータの準備を進めます。

テキストを文字に分割するのは不思議に思えるかもしれませんが、テキスト生成ではよく行われます。データ準備の手順自体は同じで、変わるのはテキストの分割方法だけです。

固定長のテキストと、そのラベルである直後の文字の対応からなる学習用データを作成します。