Belgeleri özyinelemeli olarak bölme

Tek bir karaktere göre bölmek basit ve öngörülebilirdir, ancak çoğu zaman en iyi parçalara yol açmaz. Bu egzersizde, önceki bir egzersizde yüklediğin Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks makalesini özyinelemeli karakter bölme ile böleceksin.

Özyinelemeli karakter bölmenin, bir karakter listesi üzerinde yineleme yapıp her birinde sırayla bölerek chunk_size sınırının altında parçalar oluşturulup oluşturulamayacağını kontrol ettiğini unutma.

Bu egzersiz, kursun bir parçasıdır

LangChain ile Retrieval Augmented Generation (RAG)

Kursa Göz Atın

Egzersiz talimatları

Karakter listesindeki ['\n', '.', ' ', ''] öğeleri boyunca özyinelemeli bölecek, 75 parçacık boyutu ve 10 parçacık örtüşmesi olan bir LangChain özyinelemeli karakter metin ayrıştırıcısı tanımla.
Tanımladığın text_splitter ve uygun bir yöntem kullanarak document'ı böl.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

loader = PyPDFLoader("rag_paper.pdf")
document = loader.load()

# Define a text splitter that splits recursively through the character list
text_splitter = ____(
    ____,
    chunk_size=75,  
    chunk_overlap=10  
)

# Split the document using text_splitter
chunks = text_splitter.____
print(chunks)
print([len(chunk.page_content) for chunk in chunks])

Kodu Düzenle ve Çalıştır