BaşlayınÜcretsiz Başlayın

Karaktere göre bölme

Retrieval Augmented Generation (RAG) uygularken önemli bir süreç, belgeleri bir vektör veritabanında depolamak üzere parçalara ayırmaktır.

LangChain'de bazıları diğerlerinden daha karmaşık rutinlere sahip birkaç farklı bölme stratejisi bulunur. Bu egzersizde, belgeleri karakterlere göre bölen ve parça uzunluğunu karakter sayısıyla ölçen bir character text splitter uygulayacaksın.

Unutma, tek bir ideal bölme stratejisi yoktur; kullanım durumuna en uygununu bulmak için birkaçını denemen gerekebilir.

Bu egzersiz

LangChain ile LLM Uygulamaları Geliştirme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • langchain_text_splitters içinden CharacterTextSplitter sınıfını içe aktar.
  • separator="\n", chunk_size=24 ve chunk_overlap=10 ile bir CharacterTextSplitter örneği oluştur.
  • .split_text() yöntemini kullanarak quote'u böl ve parçaları ile parça uzunluklarını yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import the character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = CharacterTextSplitter(
    separator=____,
    chunk_size=____,
    chunk_overlap=____)

# Split the string and print the chunks
docs = splitter.____(quote)
print(docs)
print([len(doc) for doc in docs])
Kodu Düzenle ve Çalıştır