1. Learn
  2. /
  3. Cursuri
  4. /
  5. Traducere automată cu Keras

Connected

exercițiu

Controlul vocabularului cu Tokenizer

Hai să explorăm mai în detaliu modul în care funcționează Tokenizer. În acest exercițiu vei învăța cum să convertești o propoziție arbitrară într-o secvență folosind un Tokenizer antrenat. În plus, vei vedea cum poți controla dimensiunea vocabularului unui Tokenizer. Vei investiga și ce se întâmplă cu cuvintele din afara vocabularului (OOV – out-of-vocabulary) atunci când limitezi dimensiunea vocabularului unui Tokenizer.

Pentru acest exercițiu, ai la dispoziție Tokenizer-ul en_tok pe care l-ai implementat anterior. Tokenizer-ul a fost deja importat pentru tine.

Instrucțiuni

100 XP
  • Convertește propoziția următoare într-o secvență folosind Tokenizer-ul anterior en_tok: she likes grapefruit , peaches , and lemons .
  • Creează un nou Tokenizer, en_tok_new, cu un vocabular de 50 de cuvinte și cuvântul pentru termenii necunoscuți UNK.
  • Antrenează noul tokenizer pe datele en_text.
  • Convertește propoziția she likes grapefruit , peaches , and lemons . într-o secvență folosind en_tok_new.