1. Nauka
  2. /
  3. Kursy
  4. /
  5. Developing LLM Applications with LangChain

Connected

ćwiczenie

Împărțire după caracter

Un pas esențial în implementarea Retrieval Augmented Generation (RAG) este împărțirea documentelor în fragmente pentru stocare într-o bază de date vectorială.

În LangChain există mai multe strategii de împărțire, unele mai complexe decât altele. În acest exercițiu, vei implementa un splitter de text bazat pe caractere, care împarte documentele după caractere și măsoară lungimea fiecărui fragment în număr de caractere.

Reține că nu există o strategie ideală de împărțire – s-ar putea să fie nevoie să experimentezi cu mai multe variante pentru a o găsi pe cea potrivită cazului tău de utilizare.

Instrukcje

100 XP
  • Importă clasa CharacterTextSplitter din langchain_text_splitters.
  • Creează o instanță CharacterTextSplitter cu separator="\n", chunk_size=24 și chunk_overlap=10.
  • Folosește metoda .split_text() pentru a împărți quote, apoi afișează fragmentele și lungimile acestora.