Antrenarea modelului bazat pe încorporări de cuvinte

Aici vei învăța cum să implementezi procesul de antrenare pentru un model de traducere automată care folosește încorporări de cuvinte (word embeddings). Un cuvânt este reprezentat printr-un singur număr, în loc de un vector one-hot encodat, așa cum ai făcut în exercițiile anterioare. Vei antrena modelul pe mai multe epoci, parcurgând întregul set de date în loturi (batch-uri).

Pentru acest exercițiu ai la dispoziție date de antrenament (tr_en și tr_fr) sub forma unei liste de propoziții. Vei folosi doar un eșantion foarte mic (1.000 de propoziții) din datele reale, deoarece antrenarea pe întregul set ar dura foarte mult. Ai, de asemenea, funcția sents2seqs() și modelul nmt_emb, pe care l-ai implementat în exercițiul anterior. Reține că folosim en_x pentru intrările encoderului și de_x pentru intrările decoderului.

Obține un singur lot de propoziții în franceză fără one-hot encoding, folosind funcția sents2seqs().
Obține toate cuvintele din de_xy, mai puțin ultimul.
Obține toate cuvintele din de_xy_oh (cuvinte în franceză cu one-hot encoding), mai puțin primul.
Antrenează modelul folosind un singur lot de date.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu