1. 学ぶ
  2. /
  3. コース
  4. /
  5. Kerasで学ぶ言語モデリングのためのRecurrent Neural Networks (RNNs)

Connected

演習

文と次の文字のベクトルを作成する

この演習では、データ前処理の重要性をより強調します。『The Big Bang Theory』のキャラクター、Sheldon のセリフからなるテキストを入力として使い、テキスト生成モデルを作成する前に必要となる、文(シーケンス)のインデックスと次の文字のベクトルを作成します。

テキストは sheldon 変数に、語彙(文字の集合)は vocabulary 変数に用意されています。ハイパーパラメータ chars_window と step はそれぞれ 20 と 3 に設定済みです。これは、20 文字のシーケンスから次の 1 文字を予測し、ウィンドウは各イテレーションで 3 文字ずつシフトすることを意味します。

また、pandas は pd として環境に読み込まれています。

指示

100 XP
  • テキストを改行で分割して、各文をループ処理できるようにします。
  • 各文の末尾から chars_window を引いた位置までループします。
  • 連続する chars_window 文字の部分文字列を sentences 変数に追加し、その直後の 1 文字を next_chars 変数に追加します。
  • 得られたベクトルを使って pd.DataFrame() を作成し、先頭の行を表示します。