1. Nauka
  2. /
  3. Kursy
  4. /
  5. Tłumaczenie maszynowe z Keras

Connected

ćwiczenie

Podział danych na zbiór treningowy i walidacyjny

Wiesz już, że trenowanie modelu wyłącznie na danych treningowych – bez zbioru walidacyjnego – prowadzi do problemu zwanego overfittingiem (przeuczeniem). Gdy dochodzi do przeuczenia, model bardzo dobrze radzi sobie z przewidywaniem wyników dla danych treningowych, ale słabo generalizuje na nowe, niewidziane dane. Taki model jest mało użyteczny. Aby tego uniknąć, warto skorzystać ze zbioru walidacyjnego.

W tym ćwiczeniu utworzysz zbiór treningowy i walidacyjny na podstawie dostępnych danych (tj. en_text zawierającego 1000 zdań angielskich oraz fr_text zawierającego 1000 zdań francuskich). Do trenowania wykorzystasz 80% danych, a pozostałe 20% przeznaczy się na walidację.

Instrukcje

100 XP
  • Zdefiniuj sekwencję indeksów za pomocą np.arange(), zaczynającą się od 0 i mającą rozmiar równy długości en_text.
  • Zdefiniuj valid_inds jako ostatnie valid_size indeksów z tej sekwencji.
  • Zdefiniuj tr_en i tf_fr zawierające zdania spod indeksów train_inds z list en_text i fr_text.
  • Zdefiniuj v_en i v_fr zawierające zdania spod indeksów valid_inds z list en_text i fr_text.