Python dosyalarını bölme
Metin ve kod dosyaları aynı karakterleri içerse de, kod dosyalarında doğal dilin ötesinde yapılar bulunur. Belge bölme sırasında bu koda özgü bağlamı korumak için, ayrıştırıcıyı önce en yaygın kod yapısı üzerinden bölmeyi deneyecek şekilde programlamalısın. Neyse ki, LangChain tam da bunu yapmanı sağlayan işlevler sunuyor!
Gerekli tüm sınıflar, langchain_text_splitters içindeki Language dahil, senin için içe aktarıldı.
Bu egzersiz, kursun bir parçasıdır
LangChain ile Retrieval Augmented Generation (RAG)
Egzersiz talimatları
- Yaygın Python kod yapıları üzerinden bölecek yinelemeli bir karakter ayrıştırıcı oluştur.
python_databelge yükleyicisini parçalara ayır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
____, chunk_size=300, chunk_overlap=100
)
# Split the Python content into chunks
chunks = ____
for i, chunk in enumerate(chunks[:3]):
print(f"Chunk {i+1}:\n{chunk.page_content}\n")