学習用データと検証用データへの分割

検証データセットを使わずに学習データだけでモデルを評価すると、過学習（overfitting）という問題が起こることを学びました。過学習が起きると、学習入力に対しては高い精度で予測できますが、未知のデータへの汎化性能が大きく低下します。つまり、モデルは汎化できないため実用性が下がってしまいます。これを避けるには、検証データセットを用います。

この演習では、手元のデータセット（1000 文の英語文を含む en_text と、対応する 1000 文のフランス語文を含む fr_text）から学習用データと検証用データを作成します。データセットの 80% を学習、20% を検証に使用します。