Příprava vstupního textu

Ve videu sis ukázal/a, jak připravit vstupní a výstupní texty. Toto cvičení demonstruje běžný postup: použití maximální délky vět pro doplnění (padding) všech ostatních – díky tomu nepřijdeš o žádnou informaci.

Protože RNN modely vyžadují vstupy stejné velikosti, je padding vhodný způsob, jak sjednotit délky vět – kratším větám se doplní nuly, aniž by se zkracovaly ty delší.

Místo jednotlivých znaků budeš jako tokeny používat celá slova, což je u modelů NMT běžný přístup.

Portugalské texty jsou načteny v proměnné pt_sentences a natrénovaný tokenizer je uložen v proměnné input_tokenizer.

Použij metodu .split() na každou větu, aby se rozdělila podle mezer, a zjisti tak počet slov ve větě.
Pomocí metody .texts_to_sequences() převeď text na posloupnost indexů.
Získanou maximální délku vět použij k jejich doplnění (padding).
Vypiš první transformovanou větu.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení