Rozdělování podle znaků

Klíčovou součástí implementace Retrieval Augmented Generation (RAG) je rozdělování dokumentů na části (chunky) pro uložení do vektorové databáze.

V LangChainu je k dispozici několik strategií rozdělování – některé jsou jednodušší, jiné složitější. V tomto cvičení implementuješ character text splitter, který rozděluje dokumenty na základě znaků a délku chunku měří počtem znaků.

Měj na paměti, že neexistuje jedna ideální strategie – možná budeš muset vyzkoušet několik variant, než najdeš tu správnou pro svůj případ použití.

Importuj třídu CharacterTextSplitter z langchain_text_splitters.
Vytvoř instanci CharacterTextSplitter s parametry separator="\n", chunk_size=24 a chunk_overlap=10.
Pomocí metody .split_text() rozděl proměnnou quote a vypiš chunky i jejich délky.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení