1. Nauka
  2. /
  3. Kursy
  4. /
  5. Tworzenie aplikacji LLM z LangChain

Connected

ćwiczenie

Podział według znaku

Kluczowym etapem wdrażania Retrieval Augmented Generation (RAG) jest dzielenie dokumentów na fragmenty (ang. chunks) w celu zapisania ich w wektorowej bazie danych.

W LangChain dostępnych jest kilka strategii podziału – niektóre z nich są bardziej złożone od innych. W tym ćwiczeniu zaimplementujesz podział tekstu według znaku, który dzieli dokumenty na podstawie wskazanego znaku i mierzy długość fragmentu liczbą znaków.

Pamiętaj, że nie istnieje jedna idealna strategia podziału – możliwe, że trzeba będzie wypróbować kilka różnych, zanim znajdziesz tę właściwą dla swojego przypadku użycia.

Instrukcje

100 XP
  • Zaimportuj klasę CharacterTextSplitter z modułu langchain_text_splitters.
  • Utwórz instancję klasy CharacterTextSplitter z parametrami separator="\n", chunk_size=24 i chunk_overlap=10.
  • Użyj metody .split_text(), aby podzielić zmienną quote, a następnie wyświetl fragmenty oraz ich długości.