1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Vývoj LLM aplikací s LangChain

Connected

cvičení

Rekurzivní dělení podle znaků

Mnoho vývojářů používá rekurzivní character splitter k dělení dokumentů podle konkrétního seznamu znaků. Ve výchozím nastavení jsou to odstavce, nové řádky, mezery a prázdné řetězce: ["\n\n", "\n", " ", ""].

Splitter se nejprve pokusí rozdělit text podle odstavců, zkontroluje, zda jsou splněny hodnoty chunk_size a chunk_overlap, a pokud ne, přejde na dělení podle vět, slov a jednotlivých znaků.

Často budeš muset experimentovat s různými hodnotami chunk_size a chunk_overlap, abys našel/a ty, které pro tvoje dokumenty fungují nejlépe.

Pokyny

100 XP
  • Importuj třídu RecursiveCharacterTextSplitter z langchain_text_splitters.
  • Vytvoř instanci RecursiveCharacterTextSplitter s parametry separators=["\n", " ", ""], chunk_size=24 a chunk_overlap=10.
  • Použij metodu .split_text() k rozdělení proměnné quote a vypiš výsledné části i jejich délky.