División por caracteres

Un proceso clave en la implementación de la generación aumentada por recuperación (RAG) es dividir los documentos en fragmentos para almacenarlos en una base de datos vectorial.

Hay varias estrategias de división disponibles en LangChain, algunas con rutinas más complejas que otras. En este ejercicio, implementarás un divisor de texto por caracteres, que divide los documentos en función de los caracteres y mide la longitud de los fragmentos por el número de caracteres.

Recuerda que no existe una estrategia de división ideal, es posible que tengas que probar varias hasta encontrar la más adecuada para tu caso concreto.

Este ejercicio forma parte del curso

Desarrollo de aplicaciones LLM con LangChain

Instrucciones del ejercicio

Importa la clase CharacterTextSplitter de langchain_text_splitters.
Crea una instancia de CharacterTextSplitter con separator="\n", chunk_size=24 y chunk_overlap=10.
Utiliza el método .split_text() para dividir quote e imprimir los fragmentos y sus longitudes.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import the character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = CharacterTextSplitter(
    separator=____,
    chunk_size=____,
    chunk_overlap=____)

# Split the string and print the chunks
docs = splitter.____(quote)
print(docs)
print([len(doc) for doc in docs])

Editar y ejecutar código

Este ejercicio forma parte del curso

Desarrollo de aplicaciones LLM con LangChain

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

Bienvenido al marco LangChain para crear aplicaciones en LLM Aprenderás los componentes principales de LangChain, incluidos los modelos, las cadenas, los agentes, los prompts y los analizadores sintácticos. Crearás chatbots utilizando tanto modelos de código abierto de Hugging Face como modelos nativos de OpenAI, crearás plantillas de prompts e integrarás diferentes estrategias de memoria para chatbots con el fin de gestionar el contexto y los recursos durante las conversaciones.

Exercise 1: El ecosistema de LangChain Exercise 2: Modelos OpenAI en LangChain Exercise 3: Modelos Hugging Face en LangChain Exercise 4: Plantillas de prompts Exercise 5: Plantillas de prompt y cadenas Exercise 6: Plantillas de prompts de chat Exercise 7: Prompts de pocos disparos Exercise 8: Creación del conjunto de ejemplos con pocos disparos Exercise 9: Creación de la plantilla de prompt de pocos disparos Exercise 10: Implementación de prompts de pocos disparos

Es hora de mejorar tus cadenas LangChain. Aprenderás a utilizar el lenguaje de expresión LangChain (LCEL) para definir cadenas con mayor flexibilidad. Crearás cadenas secuenciales, en las que las entradas se pasan entre componentes para crear aplicaciones más avanzadas. También empezarás a integrar agentes, que utilizan LLM para la toma de decisiones.

Exercise 1: Cadenas secuenciales Exercise 2: Creación de prompts para cadenas secuenciales Exercise 3: Cadenas secuenciales con LCEL Exercise 4: Introducción a los agentes de LangChain Exercise 5: ¿Qué es un agente?Exercise 6: Agentes ReAct Exercise 7: Herramientas personalizadas para agentes Exercise 8: Definición de una función para el uso de herramientas Exercise 9: Creación de herramientas personalizadas Exercise 10: Integración de herramientas personalizadas con agentes

Una limitación de los LLM es que tienen un límite de conocimientos debido a que se entrenan con datos hasta un punto determinado. En este capítulo, aprenderás a crear aplicaciones que utilizan la generación aumentada por recuperación (RAG) para integrar datos externos con los LLM. El flujo de trabajo de RAG contiene varios procesos diferentes, entre los que se incluyen la división de datos, la creación y el almacenamiento de las incrustaciones mediante una base de datos vectorial y la recuperación de la información más relevante para su uso en la aplicación. ¡Aprenderás a dominar todo el flujo de trabajo!

Exercise 1: Integración de cargadores de documentos Exercise 2: Cargadores de documentos PDF Exercise 3: Cargadores de documentos CSV Exercise 4: Cargadores de documentos HTML Exercise 5: División de datos externos para su recuperación Exercise 6: División por caracteres

Ejercicio actual

Exercise 7: División recursiva por caracteres Exercise 8: Dividir HTML Exercise 9: Almacenamiento y recuperación RAG mediante bases de datos vectoriales Exercise 10: Preparación de los documentos y la base de datos vectorial Exercise 11: Creación de una plantilla de prompt de recuperación Exercise 12: Creación de una cadena RAG Exercise 13: Resumimos.