Podział danych na zbiór treningowy i walidacyjny

Wiesz już, że trenowanie modelu wyłącznie na danych treningowych – bez zbioru walidacyjnego – prowadzi do problemu zwanego overfittingiem (przeuczeniem). Gdy dochodzi do przeuczenia, model bardzo dobrze radzi sobie z przewidywaniem wyników dla danych treningowych, ale słabo generalizuje na nowe, niewidziane dane. Taki model jest mało użyteczny. Aby tego uniknąć, warto skorzystać ze zbioru walidacyjnego.

W tym ćwiczeniu utworzysz zbiór treningowy i walidacyjny na podstawie dostępnych danych (tj. en_text zawierającego 1000 zdań angielskich oraz fr_text zawierającego 1000 zdań francuskich). Do trenowania wykorzystasz 80% danych, a pozostałe 20% przeznaczy się na walidację.

Zdefiniuj sekwencję indeksów za pomocą np.arange(), zaczynającą się od 0 i mającą rozmiar równy długości en_text.
Zdefiniuj valid_inds jako ostatnie valid_size indeksów z tej sekwencji.
Zdefiniuj tr_en i tf_fr zawierające zdania spod indeksów train_inds z list en_text i fr_text.
Zdefiniuj v_en i v_fr zawierające zdania spod indeksów valid_inds z list en_text i fr_text.

ćwiczenie

Podział danych na zbiór treningowy i walidacyjny

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie