ComeçarComece de graça

Dividindo arquivos Python

Embora arquivos de texto e de código contenham os mesmos caracteres, arquivos de código têm estruturas que vão além da linguagem natural. Para manter esse contexto específico de código durante a divisão de documentos, você deve programar o divisor para tentar primeiro dividir nas estruturas de código mais comuns. Felizmente, o LangChain oferece funcionalidades para fazer exatamente isso!

Todas as classes necessárias já foram importadas para você, incluindo Language de langchain_text_splitters.

Este exercício faz parte do curso

Retrieval Augmented Generation (RAG) com LangChain

Ver curso

Instruções do exercício

  • Crie um divisor recursivo de caracteres que divida com base em estruturas comuns de código Python.
  • Divida o carregador de documentos python_data em blocos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a Python-aware recursive character splitter
python_splitter = RecursiveCharacterTextSplitter.____(
    ____, chunk_size=300, chunk_overlap=100
)

# Split the Python content into chunks
chunks = ____

for i, chunk in enumerate(chunks[:3]):
    print(f"Chunk {i+1}:\n{chunk.page_content}\n")
Editar e executar o código