Předzpracování dat v Kerasu

Druhým nejdůležitějším modulem Kerasu je keras.preprocessing. Uvidíš, jak využít jeho klíčové moduly a funkce k přípravě surových dat do správného vstupního formátu. Keras nabízí nástroje, které nahrazují slovníkový přístup, který sis osvojil/a dříve.

Modul keras.preprocessing.text.Tokenizer použiješ k vytvoření slovníku slov pomocí metody .fit_on_texts() a k převodu textů na numerická id reprezentující index každého slova ve slovníku pomocí metody .texts_to_sequences().

Poté použiješ funkci .pad_sequences() z modulu keras.preprocessing.sequence, aby měly všechny sekvence stejnou délku (což model vyžaduje) – krátké texty se doplní nulami a dlouhé se oříznou.

Importuj Tokenizer a pad_sequences z příslušných modulů.
Natrénuj objekt tokenizer na vzorových datech uložených v proměnné texts.
Převeď texty na sekvence numerických indexů pomocí metody .texts_to_sequences().
Srovnej délku textů jejich doplněním (paddingem).

cvičení

Předzpracování dat v Kerasu

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení