Příprava textových dat pro vstup modelu

V předchozí části ses naučil/a vytvářet slovníky mapující indexy na slova a naopak. V tomto cvičení rozdělíš text na jednotlivé znaky a budeš pokračovat v přípravě dat pro supervised learning.

Rozdělování textu na znaky může na první pohled působit zvláštně, ale při generování textu se to dělá běžně. Celý postup přípravy dat zůstává stejný – mění se jen způsob rozdělení textu.

Vytvoříš trénovací data obsahující seznam textů pevné délky a jejich popisků, což jsou odpovídající následující znaky.

Budeš dále pracovat s datasetem obsahujícím citáty Sheldona (Teorie velkého třesku), který je dostupný v proměnné sheldon_quotes.

Funkce print_examples() vypíše dvojice, takže uvidíš, jak byla data transformována. Pro více informací použij help().

Nastav step na hodnotu 2 a chars_window na hodnotu 10.
Přidej další větu do proměnné sentences.
Přidej správnou pozici z textu sheldon do proměnné next_chars.
Pomocí funkce print_examples() vypiš 10 vět a jejich následujících znaků.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení