Anlamsal olarak bölme
Buraya kadar kullandığın tüm bölme stratejilerinin ortak bir dezavantajı var: Bölme, çevredeki metnin bağlamını hesaba katmaz; bu yüzden bölme sırasında bağlam kolayca kaybolabilir.
Bu egzersizde, anlamsal anlama dayalı olarak metni bölen, son teknoloji ve deneysel bir yöntem olan bir anlamsal metin bölücü oluşturacak ve uygulayacaksın. Bölücü, metnin anlamı belirli bir eşiği aştığında bir bölme işlemi gerçekleştirecek.
Bu egzersiz
LangChain ile Retrieval Augmented Generation (RAG)
kursunun bir parçasıdırEgzersiz talimatları
- OpenAI'den
'text-embedding-3-small'gömme modelini başlat. - Anlamsal benzerliği belirlemek için vektör gradyanlarını kullanan ve bölme eşiği olarak
0.8değerini kullanan bir anlamsal metin bölücü oluştur. documentdeğişkenini anlamsal bölücüyle böl.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Instantiate an OpenAI embeddings model
embedding_model = ____(api_key="", model='____')
# Create the semantic text splitter with desired parameters
semantic_splitter = ____(
embeddings=____, breakpoint_threshold_type="____", breakpoint_threshold_amount=____
)
# Split the document
chunks = ____
print(chunks[0])