1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Rekurentní neuronové sítě (RNN) pro jazykové modelování s Keras

Connected

cvičení

Příprava vstupního textu

Ve videu sis ukázal/a, jak připravit vstupní a výstupní texty. Toto cvičení demonstruje běžný postup: použití maximální délky vět pro doplnění (padding) všech ostatních – díky tomu nepřijdeš o žádnou informaci.

Protože RNN modely vyžadují vstupy stejné velikosti, je padding vhodný způsob, jak sjednotit délky vět – kratším větám se doplní nuly, aniž by se zkracovaly ty delší.

Místo jednotlivých znaků budeš jako tokeny používat celá slova, což je u modelů NMT běžný přístup.

Portugalské texty jsou načteny v proměnné pt_sentences a natrénovaný tokenizer je uložen v proměnné input_tokenizer.

Pokyny

100 XP
  • Použij metodu .split() na každou větu, aby se rozdělila podle mezer, a zjisti tak počet slov ve větě.
  • Pomocí metody .texts_to_sequences() převeď text na posloupnost indexů.
  • Získanou maximální délku vět použij k jejich doplnění (padding).
  • Vypiš první transformovanou větu.