1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Vývoj LLM aplikací s LangChain

Connected

cvičení

Rozdělování podle znaků

Klíčovou součástí implementace Retrieval Augmented Generation (RAG) je rozdělování dokumentů na části (chunky) pro uložení do vektorové databáze.

V LangChainu je k dispozici několik strategií rozdělování – některé jsou jednodušší, jiné složitější. V tomto cvičení implementuješ character text splitter, který rozděluje dokumenty na základě znaků a délku chunku měří počtem znaků.

Měj na paměti, že neexistuje jedna ideální strategie – možná budeš muset vyzkoušet několik variant, než najdeš tu správnou pro svůj případ použití.

Pokyny

100 XP
  • Importuj třídu CharacterTextSplitter z langchain_text_splitters.
  • Vytvoř instanci CharacterTextSplitter s parametry separator="\n", chunk_size=24 a chunk_overlap=10.
  • Pomocí metody .split_text() rozděl proměnnou quote a vypiš chunky i jejich délky.