Dopełnianie zdań

Teraz zaimplementujesz funkcję o nazwie sents2seqs(), którą później wykorzystasz do wygodnego przekształcania danych do formatu akceptowanego przez model neuronowego tłumaczenia maszynowego (NMT). Funkcja sents2seqs() przyjmuje listę zdań w postaci ciągów znaków i:

konwertuje zdania na listy sekwencji identyfikatorów,
dopełnia zdania tak, aby miały równą długość,
opcjonalnie zamienia identyfikatory na wektory kodowania one-hot.

Do dyspozycji masz en_tok – obiekt klasy Tokenizer już wytrenowany na danych. Zwróć też uwagę, że podczas implementacji funkcji sents2seqs() zobaczysz nieużywany argument input_type. Zostanie on użyty później do zmiany parametrów zależnych od języka, takich jak długość sekwencji i rozmiar słownika.

Przekonwertuj sentences na sekwencje przy użyciu tokenizatora en_tok.
Dopełnij sekwencje do stałej długości en_len, stosując określony typ dopełnienia pad_type i obcinanie post.
Zamień identyfikatory słów z preproc_text na wektory one-hot o długości en_vocab, używając funkcji to_categorical().
Przekonwertuj sentence na dopełnioną sekwencję metodą sents2seqs(), stosując dopełnianie pre.

Exercise

Dopełnianie zdań

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise