Suddividere file Python
Anche se i file di testo e di codice contengono gli stessi caratteri, i file di codice includono strutture che vanno oltre il linguaggio naturale. Per mantenere questo contesto specifico del codice durante la suddivisione dei documenti, dovresti programmare lo splitter in modo che provi prima a dividere in base alle strutture di codice più comuni. Per fortuna, LangChain offre già questa funzionalità!
Tutte le classi necessarie sono state importate per te, inclusa Language da langchain_text_splitters.
Questo esercizio fa parte del corso
Retrieval Augmented Generation (RAG) con LangChain
Istruzioni dell'esercizio
- Crea uno splitter ricorsivo per caratteri che divida in base alle strutture comuni del codice Python.
- Suddividi il document loader
python_datain blocchi.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
____, chunk_size=300, chunk_overlap=100
)
# Split the Python content into chunks
chunks = ____
for i, chunk in enumerate(chunks[:3]):
print(f"Chunk {i+1}:\n{chunk.page_content}\n")