1. Learn
  2. /
  3. Courses
  4. /
  5. Tłumaczenie maszynowe z Keras

Connected

Exercise

Dopełnianie zdań

Teraz zaimplementujesz funkcję o nazwie sents2seqs(), którą później wykorzystasz do wygodnego przekształcania danych do formatu akceptowanego przez model neuronowego tłumaczenia maszynowego (NMT). Funkcja sents2seqs() przyjmuje listę zdań w postaci ciągów znaków i:

  • konwertuje zdania na listy sekwencji identyfikatorów,
  • dopełnia zdania tak, aby miały równą długość,
  • opcjonalnie zamienia identyfikatory na wektory kodowania one-hot.

Do dyspozycji masz en_tok – obiekt klasy Tokenizer już wytrenowany na danych. Zwróć też uwagę, że podczas implementacji funkcji sents2seqs() zobaczysz nieużywany argument input_type. Zostanie on użyty później do zmiany parametrów zależnych od języka, takich jak długość sekwencji i rozmiar słownika.

Instructions

100 XP
  • Przekonwertuj sentences na sekwencje przy użyciu tokenizatora en_tok.
  • Dopełnij sekwencje do stałej długości en_len, stosując określony typ dopełnienia pad_type i obcinanie post.
  • Zamień identyfikatory słów z preproc_text na wektory one-hot o długości en_vocab, używając funkcji to_categorical().
  • Przekonwertuj sentence na dopełnioną sekwencję metodą sents2seqs(), stosując dopełnianie pre.