ComeçarComece de graça

Dividindo documentos recursivamente

Dividir usando um único caractere é simples e previsível, mas muitas vezes gera partes menos ideais. Neste exercício, você vai aplicar a divisão recursiva por caracteres para dividir o artigo Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks que você carregou em um exercício anterior.

Lembre-se de que a divisão recursiva por caracteres percorre uma lista de caracteres, dividindo em cada um por sua vez para verificar se é possível criar trechos abaixo do limite de chunk_size.

Este exercício faz parte do curso

Retrieval Augmented Generation (RAG) com LangChain

Ver curso

Instruções do exercício

  • Defina um divisor de texto recursivo por caracteres do LangChain para dividir recursivamente usando a lista de caracteres ['\n', '.', ' ', ''] com chunk_size igual a 75 e chunk_overlap igual a 10.
  • Divida document usando o text_splitter que você definiu e um método apropriado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

loader = PyPDFLoader("rag_paper.pdf")
document = loader.load()

# Define a text splitter that splits recursively through the character list
text_splitter = ____(
    ____,
    chunk_size=75,  
    chunk_overlap=10  
)

# Split the document using text_splitter
chunks = text_splitter.____
print(chunks)
print([len(chunk.page_content) for chunk in chunks])
Editar e executar o código