LSTM を使ったテキスト予測

この演習では、小さなテキストデータセットを使って、次の単語を予測できるお試し用の LSTM モデルを作成します。このデータセットは、映画 The Lord of the Ring から抽出して前処理した引用文で構成されています。text 変数に入っています。

この text を 長さ 4 の sequences に変換し、Keras の Tokenizer を使ってモデル用の特徴量とラベルを用意します！

Keras の Tokenizer はすでにインポート済みです。これは各単語に固有の番号を割り当て、その対応関係をディクショナリに保持します。モデルは数値を扱うため重要であり、後で出力された数値を単語にデコードしたくなる場面でも役立ちます。