Příprava výstupního textu

V tomto cvičení připravíš výstupní texty pro použití v translačním modelu. Kromě převodu textu na sekvence indexů je také potřeba každý index zakódovat metodou one-hot encoding.

Anglické texty jsou načteny v proměnné en_sentences, natrénovaný tokenizer v proměnné output_tokenizer a velikost anglické slovní zásoby v proměnné en_vocab_size.

Funkce pro provedení prvních kroků transformace výstupního jazyka (převod textů na sekvence indexů) je již připravena. V prostředí je dostupná jako transform_text_to_sequences() a má dva parametry: sentences, který očekává seznam anglických vět, a tokenizer, který očekává natrénovaný objekt Tokenizer z modulu keras.preprocessing.text.

numpy je načten jako np.

Předej proměnné en_sentences a output_tokenizer funkci transform_text_to_sequences() a inicializuj tak proměnnou Y.
Použij funkci to_categorical() pro one-hot encoding vět. Jako počet tříd použij proměnnou en_vocab_size.
Převeď dočasný seznam na numpy pole a změň tvar tak, aby odpovídal (num_sentences, sentences_len, en_vocab_size).
Vypiš nezpracovaný text i jeho transformovanou podobu.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení