Dividir recursivamente por caractere

Muitos desenvolvedores estão usando um divisor recursivo de caracteres para dividir documentos com base em uma lista específica de caracteres. Esses caracteres são parágrafos, novas linhas, espaços e strings vazias, por padrão: ["\n\n", "\n", " ", ""].

Basicamente, o divisor tenta dividir por parágrafos, verifica se os valores de chunk_size e chunk_overlap estão certos e, se não estiverem, divide por frases, depois por palavras e, por fim, por caracteres individuais.

Muitas vezes, você vai precisar experimentar diferentes valores de chunk_size e chunk_overlap para encontrar os que funcionam melhor com seus documentos.

Este exercicio faz parte do curso

Desenvolvimento de aplicativos de LLM com LangChain

Instruções do exercicio

Importe a classe certa do LangChain para dividir um documento de forma recursiva por caractere.
Defina um divisor recursivo de caracteres para dividir nos caracteres "\n", " " e "" (nessa ordem) com um chunk_size de 24 e chunk_overlap de 10.
Divida quote e imprima os trechos e os comprimentos dos trechos.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the recursive character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = ____

# Split the document and print the chunks
docs = ____
print(docs)
print([len(doc) for doc in docs])

Editar e Executar Código

Este exercicio faz parte do curso

Desenvolvimento de aplicativos de LLM com LangChain

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Boas-vindas ao framework LangChain para criação de aplicativos em LLMs! Você vai aprender sobre os principais componentes do LangChain, incluindo modelos, cadeias, agentes, prompts e analisadores. Você vai criar chatbots usando modelos de código aberto do Hugging Face e modelos próprios da OpenAI, criar modelos de prompts e integrar diferentes estratégias de memória de chatbot para gerenciar o contexto e os recursos durante as conversas.

Exercise 1: O ecossistema LangChain Exercise 2: Modelos da OpenAI no LangChain!Exercise 3: Modelos do Hugging Face no LangChain!Exercise 4: Modelos de prompt Exercise 5: Modelos de prompt e encadeamento Exercise 6: Modelos de prompt de chat Exercise 7: Prompts com poucos exemplos (few-shot)Exercise 8: Criação do conjunto de exemplos few-shot Exercise 9: Criação do modelo de prompt com poucos exemplos Exercise 10: Implementação de prompts com poucos exemplos

Hora de melhorar suas cadeias do LangChain! Você vai aprender a usar a LangChain Expression Language (LCEL) para definir cadeias com mais flexibilidade. Você vai criar cadeias sequenciais, onde as entradas são passadas entre os componentes para criar aplicativos mais avançados. Você também vai começar a integrar agentes, que usam LLMs para tomar decisões.

Exercise 1: Cadeias sequenciais Exercise 2: Criação de prompts para cadeias sequenciais Exercise 3: Cadeias sequenciais com LCEL Exercise 4: Introdução aos agentes do LangChain Exercise 5: O que é um agente?Exercise 6: Agentes ReAct Exercise 7: Ferramentas personalizadas para agentes Exercise 8: Definir uma função para o uso de ferramentas Exercise 9: Criação de ferramentas personalizadas Exercise 10: Integração de ferramentas personalizadas com agentes

Uma limitação dos LLMs é que eles têm um limite de conhecimento, porque são treinados com dados até um certo ponto. Neste capítulo, você vai aprender a criar aplicativos que usam Retrieval Augmented Generation (RAG) para integrar dados externos com LLMs. O fluxo de trabalho do RAG tem alguns processos diferentes, como dividir dados, criar e armazenar embeddings usando um banco de dados vetorial e recuperar as informações mais relevantes para usar no aplicativo. Você vai aprender a dominar todo o fluxo de trabalho!

Exercise 1: Integração de carregadores de documentos Exercise 2: Carregadores de documentos PDF Exercise 3: Carregadores de documentos CSV Exercise 4: Carregadores de documentos HTML Exercise 5: Divisão de dados externos para recuperação Exercise 6: Divisão por caractere Exercise 7: Dividir recursivamente por caractere

Exercicio Atual

Exercise 8: Divisão de HTML Exercise 9: Armazenamento e recuperação em RAG usando bancos de dados vetoriais Exercise 10: Preparação dos documentos e do banco de dados vetorial Exercise 11: Criação de um modelo de prompt de recuperação Exercise 12: Criação de uma cadeia RAG Exercise 13: Conclusão