1. 学ぶ
  2. /
  3. コース
  4. /
  5. Kerasで学ぶ言語モデリングのためのRecurrent Neural Networks (RNNs)

Connected

演習

入力テキストの前処理

動画で、入力テキストと出力テキストの準備方法を確認しましたね。この演習では、一般的な実践として、全ての文を最大長に合わせてパディングし、情報を失わないようにする方法を扱います。

RNN モデルでは入力のサイズを揃える必要があるため、短い文には末尾にゼロを追加してパディングし、長い文は切り捨てずにそのままにする方法を用います。

また、トークンの表現には文字ではなく単語を使います。これは NMT モデルで一般的なアプローチです。

ポルトガル語のテキストは pt_sentences 変数に、学習済みの tokenizer は input_tokenizer 変数に読み込まれています。

指示

100 XP
  • 各文に対して .split() メソッドを使い、空白で分割して単語数を取得します。
  • .texts_to_sequences() メソッドを使って、テキストをインデックスの列に変換します。
  • 求めた文の最大長を用いてパディングします。
  • 変換後の最初の文を出力してください。