Belgeleri özyinelemeli olarak bölme
Tek bir karaktere göre bölmek basit ve öngörülebilirdir, ancak çoğu zaman en iyi parçalara yol açmaz. Bu egzersizde, önceki bir egzersizde yüklediğin Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks makalesini özyinelemeli karakter bölme ile böleceksin.
Özyinelemeli karakter bölmenin, bir karakter listesi üzerinde yineleme yapıp her birinde sırayla bölerek chunk_size sınırının altında parçalar oluşturulup oluşturulamayacağını kontrol ettiğini unutma.
Bu egzersiz
LangChain ile Retrieval Augmented Generation (RAG)
kursunun bir parçasıdırEgzersiz talimatları
- Karakter listesindeki
['\n', '.', ' ', '']öğeleri boyunca özyinelemeli bölecek,75parçacık boyutu ve10parçacık örtüşmesi olan bir LangChain özyinelemeli karakter metin ayrıştırıcısı tanımla. - Tanımladığın
text_splitterve uygun bir yöntem kullanarakdocument'ı böl.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
loader = PyPDFLoader("rag_paper.pdf")
document = loader.load()
# Define a text splitter that splits recursively through the character list
text_splitter = ____(
____,
chunk_size=75,
chunk_overlap=10
)
# Split the document using text_splitter
chunks = text_splitter.____
print(chunks)
print([len(chunk.page_content) for chunk in chunks])