Karaktere göre özyinelemeli bölme

Birçok geliştirici, belgeleri belirli bir karakter listesine göre bölmek için özyinelemeli bir karakter ayırıcı kullanıyor. Bu karakterler varsayılan olarak paragraflar, satır sonları, boşluklar ve boş dizelerdir: ["\n\n", "\n", " ", ""].

Özetle, ayırıcı önce paragraflara göre bölmeyi dener, chunk_size ve chunk_overlap değerlerinin karşılanıp karşılanmadığını kontrol eder; eğer karşılanmazsa cümlelere, ardından kelimelere ve tek tek karakterlere göre böler.

Çoğu zaman, belgelerin için iyi çalışan değerleri bulmak üzere farklı chunk_size ve chunk_overlap değerleriyle denemeler yapman gerekecek.

Bu egzersiz, kursun bir parçasıdır

LangChain ile LLM Uygulamaları Geliştirme

Kursa Göz Atın

Egzersiz talimatları

langchain_text_splitters içinden RecursiveCharacterTextSplitter sınıfını içe aktar.
separators=["\n", " ", ""], chunk_size=24 ve chunk_overlap=10 ile bir RecursiveCharacterTextSplitter örneği oluştur.
quote metnini bölmek için .split_text() yöntemini kullan ve parçaları ile parça uzunluklarını yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import the recursive character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = RecursiveCharacterTextSplitter(
    separators=____,
    chunk_size=____,
    chunk_overlap=____)

# Split the document and print the chunks
docs = splitter.____(quote)
print(docs)
print([len(doc) for doc in docs])

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

LangChain ile LLM Uygulamaları Geliştirme

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

LLM’ler üzerinde uygulama geliştirmek için LangChain çerçevesine hoş geldin! Modeller, zincirler, aracılar (agents), istemler (prompts) ve ayrıştırıcılar (parsers) dahil olmak üzere LangChain’in ana bileşenlerini öğreneceksin. Hem Hugging Face’teki açık kaynaklı modellerle hem de OpenAI’ın tescilli modelleriyle sohbet botları oluşturacak, istem şablonları hazırlayacak ve sohbet sırasında bağlamı ve kaynakları yönetmek için farklı sohbet botu bellek stratejilerini entegre edeceksin.

Exercise 1: LangChain ekosistemi Exercise 2: LangChain'de OpenAI modelleri!Exercise 3: LangChain'de Hugging Face modelleri!Exercise 4: İstem şablonları Exercise 5: Prompt şablonları ve zincirleme Exercise 6: Sohbet istemi şablonları Exercise 7: Birkaç atışlık yönlendirme Exercise 8: Birkaç çekimlik örnek setinin oluşturulması Exercise 9: Az örnekli (few-shot) istem şablonu oluşturma Exercise 10: Few-shot prompt uygulama

LangChain zincirlerini bir üst seviyeye taşıma zamanı! Zincirleri daha esnek biçimde tanımlamak için LangChain Expression Language’i (LCEL) kullanmayı öğreneceksin. Girdilerin bileşenler arasında aktarıldığı sıralı zincirler oluşturup daha gelişmiş uygulamalar inşa edeceksin. Ayrıca, karar verme için LLM’leri kullanan aracıları entegre etmeye başlayacaksın.

Exercise 1: Sıralı zincirler Exercise 2: Sıralı zincirler için ipucu oluşturma Exercise 3: LCEL ile sıralı zincirler Exercise 4: LangChain aracılarına giriş Exercise 5: Agent nedir?Exercise 6: ReAct ajanları Exercise 7: Acenteler için özel araçlar Exercise 8: Araç kullanımı için bir işlev tanımlama Exercise 9: Özel araçlar oluşturma Exercise 10: Özel araçları ajanlarla entegre etme

LLM’lerin bir sınırlaması, belirli bir tarihe kadar olan verilerle eğitildikleri için bilgi kesim tarihine sahip olmalarıdır. Bu bölümde, harici verileri LLM’lerle entegre etmek için Retrieval Augmented Generation (RAG) kullanan uygulamalar oluşturmayı öğreneceksin. RAG iş akışı; veriyi bölme, gömlemeleri (embeddings) bir vektör veritabanı kullanarak oluşturup depolama ve uygulamada kullanılmak üzere en alakalı bilgiyi getirme gibi birkaç farklı süreç içerir. Tüm iş akışına hâkim olmayı öğreneceksin!

Exercise 1: Belge yükleyicileri entegre etme Exercise 2: PDF belge yükleyi̇ci̇ler Exercise 3: CSV belge yükleyi̇ci̇ler Exercise 4: HTML belge yükleyi̇ci̇ler Exercise 5: Alım için harici verileri bölme Exercise 6: Karaktere göre bölme Exercise 7: Karaktere göre özyinelemeli bölme

Geçerli egzersiz

Exercise 8: HTML'i bölme Exercise 9: RAG vektör veri tabanları kullanarak depolama ve geri çağırma Exercise 10: Belgeleri ve vektör veritabanını hazırlama Exercise 11: Bir alma istemi şablonu oluşturma Exercise 12: Bir RAG zinciri oluşturma Exercise 13: Toparlanın!