Dividindo arquivos Python
Embora arquivos de texto e de código contenham os mesmos caracteres, arquivos de código têm estruturas que vão além da linguagem natural. Para manter esse contexto específico de código durante a divisão de documentos, você deve programar o divisor para tentar primeiro dividir nas estruturas de código mais comuns. Felizmente, o LangChain oferece funcionalidades para fazer exatamente isso!
Todas as classes necessárias já foram importadas para você, incluindo Language de langchain_text_splitters.
Este exercício faz parte do curso
Retrieval Augmented Generation (RAG) com LangChain
Instruções do exercício
- Crie um divisor recursivo de caracteres que divida com base em estruturas comuns de código Python.
- Divida o carregador de documentos
python_dataem blocos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
____, chunk_size=300, chunk_overlap=100
)
# Split the Python content into chunks
chunks = ____
for i, chunk in enumerate(chunks[:3]):
print(f"Chunk {i+1}:\n{chunk.page_content}\n")