Przygotowanie tekstu wejściowego

W filmie zobaczyłeś, jak przygotować teksty wejściowe i wyjściowe. To ćwiczenie pokazuje popularną praktykę: używanie maksymalnej długości zdań do uzupełniania (paddingu) wszystkich zdań – dzięki temu żadna informacja nie zostanie utracona.

Ponieważ modele RNN wymagają, aby dane wejściowe miały ten sam rozmiar, paddingujemy wszystkie zdania, dodając zera do krótszych – bez przycinania dłuższych.

Zamiast znaków będziesz używać słów jako tokenów – to powszechne podejście w modelach NMT.

Teksty w języku portugalskim są załadowane do zmiennej pt_sentences, a dopasowany tokenizer – do zmiennej input_tokenizer.

Użyj metody .split() na każdym zdaniu, aby podzielić je po białych znakach i uzyskać liczbę słów w zdaniu.
Użyj metody .texts_to_sequences(), aby przekształcić tekst w ciąg indeksów.
Użyj uzyskanej maksymalnej długości zdań, aby je uzupełnić (padding).
Wydrukuj pierwsze przekształcone zdanie.

연습 문제

Przygotowanie tekstu wejściowego

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제