1. Nauka
  2. /
  3. Kursy
  4. /
  5. Tłumaczenie maszynowe z Keras

Connected

ćwiczenie

Kontrolowanie słownika za pomocą Tokenizera

Przyjrzyjmy się bliżej działaniu obiektu Tokenizer. W tym ćwiczeniu nauczysz się, jak przekonwertować dowolne zdanie na sekwencję przy użyciu wytrenowanego Tokenizera. Poznasz też sposób kontrolowania rozmiaru słownika Tokenizera. Sprawdzisz ponadto, co dzieje się ze słowami spoza słownika (OOV – out-of-vocabulary), gdy ograniczysz jego rozmiar.

Na potrzeby tego ćwiczenia udostępniono ci Tokenizer o nazwie en_tok, który zaimplementowałeś wcześniej. Tokenizer został już zaimportowany.

Instrukcje

100 XP
  • Przekonwertuj następujące zdanie na sekwencję przy użyciu wcześniejszego Tokenizera en_tok: she likes grapefruit , peaches , and lemons .
  • Utwórz nowy Tokenizer o nazwie en_tok_new z rozmiarem słownika równym 50 i tokenem dla słów spoza słownika ustawionym na UNK.
  • Dopasuj nowy tokenizer do danych en_text.
  • Przekonwertuj zdanie she likes grapefruit , peaches , and lemons . na sekwencję przy użyciu en_tok_new.