1. Учиться
  2. /
  3. Courses
  4. /
  5. Kerasで学ぶMachine Translation

Connected

Exercise

学習用データと検証用データへの分割

検証データセットを使わずに学習データだけでモデルを評価すると、過学習(overfitting)という問題が起こることを学びました。過学習が起きると、学習入力に対しては高い精度で予測できますが、未知のデータへの汎化性能が大きく低下します。つまり、モデルは汎化できないため実用性が下がってしまいます。これを避けるには、検証データセットを用います。

この演習では、手元のデータセット(1000 文の英語文を含む en_text と、対応する 1000 文のフランス語文を含む fr_text)から学習用データと検証用データを作成します。データセットの 80% を学習、20% を検証に使用します。

Инструкции

100 XP
  • np.arange() を使って、0 から始まり en_text のサイズを持つインデックス列を定義します。
  • インデックス列の最後の valid_size 個を取り出し、valid_inds として定義します。
  • リスト en_text と fr_text から、train_inds の位置にある文を取り出し、それぞれ tr_en と tf_fr を定義します。
  • リスト en_text と fr_text から、valid_inds の位置にある文を取り出し、それぞれ v_en と v_fr を定義します。