新しいテキストの変換

この演習では、これまでに作成した辞書を使って、新しいテキストを数値インデックスのシーケンスに変換します。

すでに学習済みモデルがあり、新しいデータセットに適用したいときに役立ちます。学習データに対して実施した前処理は、新しいテキストにも同様に適用する必要があります。そうすることで、モデルが予測／分類を行えるようになります。

ここでは、語彙に含まれない単語を表す特別なトークン '<UKN/>' も使用します。通常、これらの特別なトークンは辞書の最初のインデックス、すなわち位置 0 に割り当てられます。

変数 word_to_index、index_to_word、vocabulary はすでに環境に読み込まれています。また、新しいテキストは変数 new_text として読み込まれており、内容は確認できるように出力済みです。

文を含むリスト new_text をループします。
単語が辞書に見つからない場合、インデックスは 0 に設定します。
インデックス列に変換した文を変数 new_text_split に追加します。
辞書 index_to_word を使って、インデックスをテキストに戻します。