1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Translation with Keras

Connected

Cvičení

Správa slovníku pomocí Tokenizeru

Pojďme se podívat blíže na fungování Tokenizeru. V tomto cvičení se naučíš, jak převést libovolnou větu na sekvenci pomocí natrénovaného Tokenizeru. Zároveň se naučíš ovládat velikost slovníku Tokenizeru. Prozkoumáš také, co se stane se slovy mimo slovník (OOV), když omezíš jeho velikost.

Pro toto cvičení máš k dispozici Tokenizer en_tok, který jsi implementoval/a dříve. Tokenizer je již naimportován.

Pokyny

100 XP
  • Převeď následující větu na sekvenci pomocí předchozího Tokenizeru en_tok: she likes grapefruit , peaches , and lemons .
  • Vytvoř nový Tokenizer en_tok_new s velikostí slovníku 50 a slovem pro výrazy mimo slovník UNK.
  • Natrénuj nový tokenizer na datech en_text.
  • Převeď větu she likes grapefruit , peaches , and lemons . na sekvenci pomocí en_tok_new.