Anlamsal olarak bölme
Buraya kadar kullandığın tüm bölme stratejilerinin ortak bir dezavantajı var: Bölme, çevredeki metnin bağlamını hesaba katmaz; bu yüzden bölme sırasında bağlam kolayca kaybolabilir.
Bu egzersizde, anlamsal anlama dayalı olarak metni bölen, son teknoloji ve deneysel bir yöntem olan bir anlamsal metin bölücü oluşturacak ve uygulayacaksın. Bölücü, metnin anlamı belirli bir eşiği aştığında bir bölme işlemi gerçekleştirecek.
Bu egzersiz, kursun bir parçasıdır
LangChain ile Retrieval Augmented Generation (RAG)
Egzersiz talimatları
- OpenAI'den
'text-embedding-3-small'gömme modelini başlat. - Anlamsal benzerliği belirlemek için vektör gradyanlarını kullanan ve bölme eşiği olarak
0.8değerini kullanan bir anlamsal metin bölücü oluştur. documentdeğişkenini anlamsal bölücüyle böl.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Instantiate an OpenAI embeddings model
embedding_model = ____(api_key="", model='____')
# Create the semantic text splitter with desired parameters
semantic_splitter = ____(
embeddings=____, breakpoint_threshold_type="____", breakpoint_threshold_amount=____
)
# Split the document
chunks = ____
print(chunks[0])