1. Nauka
  2. /
  3. Kursy
  4. /
  5. Tworzenie aplikacji LLM z LangChain

Connected

ćwiczenie

Rekurencyjne dzielenie według znaków

Wielu programistów korzysta z rekurencyjnego splittera znakowego do dzielenia dokumentów według określonej listy znaków. Domyślnie są to: akapity, znaki nowej linii, spacje i puste ciągi znaków: ["\n\n", "\n", " ", ""].

W praktyce splitter najpierw próbuje podzielić tekst według akapitów, sprawdza, czy spełnione są wartości chunk_size i chunk_overlap, a jeśli nie – dzieli według zdań, następnie słów i pojedynczych znaków.

Często trzeba eksperymentować z różnymi wartościami chunk_size i chunk_overlap, aby znaleźć te, które najlepiej sprawdzają się w przypadku twoich dokumentów.

Instrukcje

100 XP
  • Zaimportuj klasę RecursiveCharacterTextSplitter z langchain_text_splitters.
  • Utwórz instancję RecursiveCharacterTextSplitter z parametrami separators=["\n", " ", ""], chunk_size=24 i chunk_overlap=10.
  • Użyj metody .split_text(), aby podzielić quote, a następnie wyświetl fragmenty i ich długości.