1. 学ぶ
  2. /
  3. コース
  4. /
  5. Kerasで学ぶ言語モデリングのためのRecurrent Neural Networks (RNNs)

Connected

演習

Keras の前処理

Keras のもう一つの重要なモジュールが keras.preprocessing です。ここでは、生データを正しい入力形状に整えるための主要なモジュールと関数の使い方を学びます。Keras は、前のレッスンで学んだ辞書方式の代わりとなる機能を提供しています。

keras.preprocessing.text.Tokenizer モジュールを使い、メソッド .fit_on_texts() で単語の辞書を作成し、メソッド .texts_to_sequences() で各単語の辞書内インデックスを表す数値 ID の列にテキストを変換します。

その後、keras.preprocessing.sequence の関数 .pad_sequences() を使って、短いテキストはゼロで埋め、長いテキストは切り詰めることで、すべてのシーケンスが同じ長さ(モデルに必要)になるように調整します。

指示

100 XP
  • 関連するモジュールから Tokenizer と pad_sequences をインポートします。
  • サンプルデータ texts に対して tokenizer オブジェクトを学習させます。
  • メソッド .texts_to_sequences() を使って、テキストを数値インデックスのシーケンスに変換します。
  • パディングでテキストの長さをそろえます。