Podział według znaku

Kluczowym etapem wdrażania Retrieval Augmented Generation (RAG) jest dzielenie dokumentów na fragmenty (ang. chunks) w celu zapisania ich w wektorowej bazie danych.

W LangChain dostępnych jest kilka strategii podziału – niektóre z nich są bardziej złożone od innych. W tym ćwiczeniu zaimplementujesz podział tekstu według znaku, który dzieli dokumenty na podstawie wskazanego znaku i mierzy długość fragmentu liczbą znaków.

Pamiętaj, że nie istnieje jedna idealna strategia podziału – możliwe, że trzeba będzie wypróbować kilka różnych, zanim znajdziesz tę właściwą dla swojego przypadku użycia.

Zaimportuj klasę CharacterTextSplitter z modułu langchain_text_splitters.
Utwórz instancję klasy CharacterTextSplitter z parametrami separator="\n", chunk_size=24 i chunk_overlap=10.
Użyj metody .split_text(), aby podzielić zmienną quote, a następnie wyświetl fragmenty oraz ich długości.

ćwiczenie

Podział według znaku

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie