1. Learn
  2. /
  3. Courses
  4. /
  5. Machine Translation with Keras

Connected

Exercise

Rozdělení dat na trénovací a validační sadu

Jak už víš, trénování modelu pouze na trénovacích datech bez validační sady vede k problému zvanému overfitting (přetrénování). Při overfittingu model sice velmi dobře předpovídá výsledky pro trénovací vstupy, ale na nových, dosud neviděných datech si vede velmi špatně. Takový model pak není příliš užitečný, protože nedokáže zobecňovat. Tomuto problému se dá předejít použitím validační sady.

V tomto cvičení vytvoříš trénovací a validační sadu z dostupného datasetu (tedy en_text obsahujícího 1 000 anglických vět a fr_text obsahujícího 1 000 francouzských vět). Na trénovací data použiješ 80 % datasetu a na validační data zbývajících 20 %.

Instructions

100 XP
  • Pomocí np.arange() definuj posloupnost indexů začínající od 0 o velikosti odpovídající délce en_text.
  • Definuj valid_inds jako posledních valid_size indexů z této posloupnosti.
  • Definuj tr_en a tf_fr, které budou obsahovat věty na indexech train_inds ze seznamů en_text a fr_text.
  • Definuj v_en a v_fr, které budou obsahovat věty na indexech valid_inds ze seznamů en_text a fr_text.