1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Translation with Keras

Connected

Cvičení

Padding vět

Teď implementuješ funkci sents2seqs(), kterou později použiješ k pohodlnému převodu dat do formátu, který očekává model neuronového strojového překladu (NMT). Funkce sents2seqs() přijímá seznam řetězců vět a:

  • Převede věty na seznam sekvencí ID,
  • Doplní věty paddingem tak, aby měly stejnou délku,
  • Volitelně převede ID na onehot vektory.

Máš k dispozici en_tok, tedy Tokenizer již natrénovaný na datech. Důležité je také to, že při implementaci funkce sents2seqs() narazíš na nepoužitý argument input_type. Ten bude později sloužit ke změně jazykově závislých parametrů, jako je délka sekvence nebo velikost slovní zásoby.

Pokyny

100 XP
  • Převeď sentences na sekvence pomocí Tokenizeru en_tok.
  • Doplň sekvence paddingem na pevnou délku en_len se zadaným typem paddingu pad_type a použij zkracování typu post.
  • Převeď ID slov v preproc_text na onehot vektory délky en_vocab pomocí funkce to_categorical().
  • Převeď sentence na sekvenci s paddingem pomocí metody sents2seqs() s paddingem typu pre.