1. Обучение
  2. /
  3. Курса
  4. /
  5. Traducere automată cu Keras

Connected

упражнение

Partea 1: Explorarea setului de date

Acum vei explora puțin setul de date. Mai întâi vei face cunoștință cu structura datelor: vei afișa câteva exemple și vei învăța cum să tokenizezi propozițiile în cuvinte individuale. În cazul limbii engleze, tokenizarea pare o sarcină simplă; există însă limbi, cum ar fi japoneza, care nu au delimitatori la fel de consecvenți ca engleza.

Pentru acest exercițiu, ai la dispoziție două seturi de date: en_text și fr_text. en_text conține o listă de propoziții în engleză, iar fr_text conține lista corespunzătoare de propoziții în franceză.

Инструкции

100 XP
  • Scrie o funcție zip() care iterează prin primele 5 propoziții din propozițiile în engleză (en_text) și din cele în franceză (fr_text).
  • Extrage prima propoziție în engleză din en_text.
  • Tokenizează propoziția obținută folosind funcția split() și caracterul spațiu, apoi atribuie rezultatul variabilei first_words.
  • Afișează cuvintele tokenizate.