Karaktere göre bölme
Retrieval Augmented Generation (RAG) uygularken önemli bir süreç, belgeleri bir vektör veritabanında depolamak üzere parçalara ayırmaktır.
LangChain'de bazıları diğerlerinden daha karmaşık rutinlere sahip birkaç farklı bölme stratejisi bulunur. Bu egzersizde, belgeleri karakterlere göre bölen ve parça uzunluğunu karakter sayısıyla ölçen bir character text splitter uygulayacaksın.
Unutma, tek bir ideal bölme stratejisi yoktur; kullanım durumuna en uygununu bulmak için birkaçını denemen gerekebilir.
Bu egzersiz
LangChain ile LLM Uygulamaları Geliştirme
kursunun bir parçasıdırEgzersiz talimatları
langchain_text_splittersiçindenCharacterTextSplittersınıfını içe aktar.separator="\n",chunk_size=24vechunk_overlap=10ile birCharacterTextSplitterörneği oluştur..split_text()yöntemini kullanarakquote'u böl ve parçaları ile parça uzunluklarını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the character splitter
from langchain_text_splitters import ____
quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10
# Create an instance of the splitter class
splitter = CharacterTextSplitter(
separator=____,
chunk_size=____,
chunk_overlap=____)
# Split the string and print the chunks
docs = splitter.____(quote)
print(docs)
print([len(doc) for doc in docs])