Împărțirea datelor în seturi de antrenament și validare

Ai aflat că utilizarea exclusivă a datelor de antrenament, fără un set de validare, duce la o problemă numită supraadaptare (overfitting). Când apare supraadaptarea, modelul va prezice foarte bine datele de antrenament, însă va generaliza extrem de slab pe date noi, nevăzute. Aceasta înseamnă că modelul nu va fi prea util, deoarece nu poate generaliza. Pentru a evita acest lucru, poți folosi un set de validare.

În acest exercițiu, vei crea un set de antrenament și un set de validare din setul de date disponibil (adică en_text, care conține 1.000 de propoziții în engleză, și fr_text, care conține cele 1.000 de propoziții în franceză). Vei folosi 80% din date pentru antrenament și 20% pentru validare.

Definește o secvență de indici folosind np.arange(), care să înceapă de la 0 și să aibă dimensiunea egală cu en_text.
Definește valid_inds ca ultimii valid_size indici din secvența de indici.
Definește tr_en și tf_fr, care să conțină propozițiile de la indicii train_inds din listele en_text și fr_text.
Definește v_en și v_fr, care să conțină propozițiile de la indicii valid_inds din listele en_text și fr_text.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu