1. Learn
  2. /
  3. Cursuri
  4. /
  5. Developing LLM Applications with LangChain

Connected

exercițiu

Împărțirea recursivă după caractere

Mulți dezvoltatori folosesc un splitter recursiv după caractere pentru a împărți documentele pe baza unei liste specifice de caractere. Implicit, acestea sunt paragrafele, liniile noi, spațiile și șirurile goale: ["\n\n", "\n", " ", ""].

Practic, splitter-ul încearcă mai întâi să împartă textul după paragrafe, verifică dacă valorile chunk_size și chunk_overlap sunt respectate și, dacă nu, trece la împărțirea după propoziții, apoi după cuvinte și, în final, după caractere individuale.

De cele mai multe ori, va trebui să experimentezi cu diferite valori pentru chunk_size și chunk_overlap pentru a le găsi pe cele care funcționează cel mai bine pentru documentele tale.

Instrucțiuni

100 XP
  • Importă clasa RecursiveCharacterTextSplitter din langchain_text_splitters.
  • Creează o instanță RecursiveCharacterTextSplitter cu separators=["\n", " ", ""], chunk_size=24 și chunk_overlap=10.
  • Folosește metoda .split_text() pentru a împărți quote, apoi afișează fragmentele obținute și lungimile acestora.