1. 학습
  2. /
  3. 강의
  4. /
  5. Rekurencyjne sieci neuronowe (RNN) do modelowania języka w Keras

Connected

연습 문제

Przygotowanie tekstu wejściowego

W filmie zobaczyłeś, jak przygotować teksty wejściowe i wyjściowe. To ćwiczenie pokazuje popularną praktykę: używanie maksymalnej długości zdań do uzupełniania (paddingu) wszystkich zdań – dzięki temu żadna informacja nie zostanie utracona.

Ponieważ modele RNN wymagają, aby dane wejściowe miały ten sam rozmiar, paddingujemy wszystkie zdania, dodając zera do krótszych – bez przycinania dłuższych.

Zamiast znaków będziesz używać słów jako tokenów – to powszechne podejście w modelach NMT.

Teksty w języku portugalskim są załadowane do zmiennej pt_sentences, a dopasowany tokenizer – do zmiennej input_tokenizer.

지침

100 XP
  • Użyj metody .split() na każdym zdaniu, aby podzielić je po białych znakach i uzyskać liczbę słów w zdaniu.
  • Użyj metody .texts_to_sequences(), aby przekształcić tekst w ciąg indeksów.
  • Użyj uzyskanej maksymalnej długości zdań, aby je uzupełnić (padding).
  • Wydrukuj pierwsze przekształcone zdanie.