Dividindo documentos recursivamente
Dividir usando um único caractere é simples e previsível, mas muitas vezes gera partes menos ideais. Neste exercício, você vai aplicar a divisão recursiva por caracteres para dividir o artigo Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks que você carregou em um exercício anterior.
Lembre-se de que a divisão recursiva por caracteres percorre uma lista de caracteres, dividindo em cada um por sua vez para verificar se é possível criar trechos abaixo do limite de chunk_size.
Este exercício faz parte do curso
Retrieval Augmented Generation (RAG) com LangChain
Instruções do exercício
- Defina um divisor de texto recursivo por caracteres do LangChain para dividir recursivamente usando a lista de caracteres
['\n', '.', ' ', '']comchunk_sizeigual a75echunk_overlapigual a10. - Divida
documentusando otext_splitterque você definiu e um método apropriado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
loader = PyPDFLoader("rag_paper.pdf")
document = loader.load()
# Define a text splitter that splits recursively through the character list
text_splitter = ____(
____,
chunk_size=75,
chunk_overlap=10
)
# Split the document using text_splitter
chunks = text_splitter.____
print(chunks)
print([len(chunk.page_content) for chunk in chunks])