BaşlayınÜcretsiz Başlayın

Belirteçlere göre bölme

Belgeleri RecursiveCharacterTextSplitter veya CharacterTextSplitter ile bölmek pratiktir ve bazı durumlarda iyi performans sağlar; ancak bir dezavantajı vardır: modeli işleyen birimler olan belirteçler (token) yerine, temel birim olarak karakterlere göre bölerler.

Bu egzersizde, belgeleri bir token metin bölücüyle böleceksin. Böylece her parçadaki token sayısını doğrulayabilir ve modelin bağlam penceresini aşmadıklarından emin olabilirsin. Bir PDF belgesi document olarak yüklendi.

tiktoken ve gerekli tüm sınıflar senin için içe aktarıldı.

Bu egzersiz

LangChain ile Retrieval Augmented Generation (RAG)

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Her parçadaki token sayısını kontrol edebilmek için tiktoken kullanarak gpt-4o-mini için kodlamayı al.
  • GPT-4o-Mini encoding değerini kullanarak token sayısına göre bölecek bir metin bölücü oluştur.
  • document içinde saklanan PDF'yi token_splitter kullanarak parçalara ayır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Get the encoding for gpt-4o-mini
encoding = ____

# Create a token text splitter
token_splitter = ____(encoding_name=____, chunk_size=100, chunk_overlap=10)

# Split the PDF into chunks
chunks = ____

for i, chunk in enumerate(chunks[:3]):
    print(f"Chunk {i+1}:\nNo. tokens: {len(encoding.encode(chunk.page_content))}\n{chunk}\n")
Kodu Düzenle ve Çalıştır