1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Rekurentní neuronové sítě (RNN) pro jazykové modelování s Keras

Connected

cvičení

Předzpracování dat v Kerasu

Druhým nejdůležitějším modulem Kerasu je keras.preprocessing. Uvidíš, jak využít jeho klíčové moduly a funkce k přípravě surových dat do správného vstupního formátu. Keras nabízí nástroje, které nahrazují slovníkový přístup, který sis osvojil/a dříve.

Modul keras.preprocessing.text.Tokenizer použiješ k vytvoření slovníku slov pomocí metody .fit_on_texts() a k převodu textů na numerická id reprezentující index každého slova ve slovníku pomocí metody .texts_to_sequences().

Poté použiješ funkci .pad_sequences() z modulu keras.preprocessing.sequence, aby měly všechny sekvence stejnou délku (což model vyžaduje) – krátké texty se doplní nulami a dlouhé se oříznou.

Pokyny

100 XP
  • Importuj Tokenizer a pad_sequences z příslušných modulů.
  • Natrénuj objekt tokenizer na vzorových datech uložených v proměnné texts.
  • Převeď texty na sekvence numerických indexů pomocí metody .texts_to_sequences().
  • Srovnej délku textů jejich doplněním (paddingem).