1. Learn
  2. /
  3. Cursuri
  4. /
  5. Traducere automată cu Keras

Connected

exercițiu

Completarea cu padding a propozițiilor

Vei implementa acum o funcție numită sents2seqs(), pe care o vei folosi ulterior pentru a transforma datele în formatul acceptat de modelul de traducere automată neuronală (NMT). sents2seqs() primește o listă de propoziții sub formă de șiruri de caractere și:

  • Convertește propozițiile într-o listă de secvențe de ID-uri,
  • Aplică padding propozițiilor pentru ca acestea să aibă lungime egală și,
  • Opțional, convertește ID-urile în vectori onehot.

Ți-a fost furnizat en_tok, un Tokenizer deja antrenat pe date. Un alt lucru de reținut este că, la implementarea funcției sents2seqs(), vei observa un argument neutilizat numit input_type. Ulterior, acest input_type va fi folosit pentru a modifica parametri dependenți de limbă, cum ar fi lungimea secvenței și dimensiunea vocabularului.

Instrucțiuni

100 XP
  • Convertește sentences în secvențe folosind Tokenizer-ul en_tok.
  • Aplică padding secvențelor până la o lungime fixă en_len, cu un tip de padding specificat prin pad_type, și folosește trunchiere de tip post.
  • Convertește ID-urile de cuvinte din preproc_text în vectori onehot de lungime en_vocab folosind funcția to_categorical().
  • Convertește sentence într-o secvență cu padding folosind metoda sents2seqs() cu padding de tip pre.