Memecah file Python
Meskipun berkas teks dan kode berisi karakter yang sama, berkas kode memiliki struktur yang melampaui bahasa alami. Untuk mempertahankan konteks khusus kode ini saat pemecahan dokumen, Anda perlu mengatur pemecah agar terlebih dahulu mencoba memecah berdasarkan struktur kode yang paling umum. Untungnya, LangChain menyediakan fungsionalitas untuk melakukan hal tersebut!
Semua kelas yang diperlukan telah diimpor untuk Anda, termasuk Language dari langchain_text_splitters.
Latihan ini adalah bagian dari kursus
Retrieval Augmented Generation (RAG) dengan LangChain
Petunjuk latihan
- Buat pemecah karakter rekursif yang akan memecah berdasarkan struktur kode Python yang umum.
- Pecah pemuat dokumen
python_datamenjadi potongan-potongan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
____, chunk_size=300, chunk_overlap=100
)
# Split the Python content into chunks
chunks = ____
for i, chunk in enumerate(chunks[:3]):
print(f"Chunk {i+1}:\n{chunk.page_content}\n")