Completarea cu padding a propozițiilor

Vei implementa acum o funcție numită sents2seqs(), pe care o vei folosi ulterior pentru a transforma datele în formatul acceptat de modelul de traducere automată neuronală (NMT). sents2seqs() primește o listă de propoziții sub formă de șiruri de caractere și:

Convertește propozițiile într-o listă de secvențe de ID-uri,
Aplică padding propozițiilor pentru ca acestea să aibă lungime egală și,
Opțional, convertește ID-urile în vectori onehot.

Ți-a fost furnizat en_tok, un Tokenizer deja antrenat pe date. Un alt lucru de reținut este că, la implementarea funcției sents2seqs(), vei observa un argument neutilizat numit input_type. Ulterior, acest input_type va fi folosit pentru a modifica parametri dependenți de limbă, cum ar fi lungimea secvenței și dimensiunea vocabularului.

Convertește sentences în secvențe folosind Tokenizer-ul en_tok.
Aplică padding secvențelor până la o lungime fixă en_len, cu un tip de padding specificat prin pad_type, și folosește trunchiere de tip post.
Convertește ID-urile de cuvinte din preproc_text în vectori onehot de lungime en_vocab folosind funcția to_categorical().
Convertește sentence într-o secvență cu padding folosind metoda sents2seqs() cu padding de tip pre.

exercițiu

Completarea cu padding a propozițiilor

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu