Python dosyalarını bölme
Metin ve kod dosyaları aynı karakterleri içerse de, kod dosyalarında doğal dilin ötesinde yapılar bulunur. Belge bölme sırasında bu koda özgü bağlamı korumak için, ayrıştırıcıyı önce en yaygın kod yapısı üzerinden bölmeyi deneyecek şekilde programlamalısın. Neyse ki, LangChain tam da bunu yapmanı sağlayan işlevler sunuyor!
Gerekli tüm sınıflar, langchain_text_splitters içindeki Language dahil, senin için içe aktarıldı.
Bu egzersiz
LangChain ile Retrieval Augmented Generation (RAG)
kursunun bir parçasıdırEgzersiz talimatları
- Yaygın Python kod yapıları üzerinden bölecek yinelemeli bir karakter ayrıştırıcı oluştur.
python_databelge yükleyicisini parçalara ayır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
____, chunk_size=300, chunk_overlap=100
)
# Split the Python content into chunks
chunks = ____
for i, chunk in enumerate(chunks[:3]):
print(f"Chunk {i+1}:\n{chunk.page_content}\n")