1. Learn
  2. /
  3. Cursuri
  4. /
  5. Traducere automată cu Keras

Connected

exercițiu

Tokenizarea propozițiilor cu Keras

În acest exercițiu vei lucra direct cu obiectul Tokenizer din Keras. Acesta este un instrument extrem de util, care îți permite să realizezi procesări esențiale ale textului cu doar câteva linii de cod. De exemplu, Tokenizer-ul din Keras mapează automat cuvintele din vocabularul tău la ID-uri numerice printr-un singur apel de funcție. Vei explora acest mecanism în detaliu.

Vei crea un obiect Tokenizer din Keras și îl vei antrena pe un text, astfel încât acesta să construiască un dicționar de cuvinte și ID-urile corespunzătoare. Textul folosit pentru antrenarea Tokenizer-ului provine din Udacity Github Repo.

Instrucțiuni

100 XP
  • Definește un obiect Tokenizer din Keras.
  • Antrenează tokenizatorul pe en_text.
  • Obține ID-ul fiecărui cuvânt w din lista dată ["january", "apples", "summer"].
  • Afișează cuvântul și ID-ul său corespunzător.