División recursiva por caracteres

Muchos programadores utilizan un divisor de caracteres recursivo para dividir documentos basándose en una lista específica de caracteres. Estos caracteres son párrafos, saltos de línea, espacios y cadenas vacías, por defecto: ["\n\n", "\n", " ", ""].

En la práctica, el divisor intenta dividir por párrafos, comprueba si se cumplen los valores chunk_size y chunk_overlap y, si no es así, divide por frases, luego por palabras y, por último, por caracteres individuales.

A menudo, tendrás que probar diferentes valores de chunk_size y chunk_overlap para encontrar los que mejor se adapten a tus documentos.

Este ejercicio forma parte del curso

Desarrollo de aplicaciones LLM con LangChain

Instrucciones del ejercicio

Importa la clase LangChain adecuada para dividir un documento de forma recursiva por caracteres.
Define un divisor de caracteres recursivo para dividir los caracteres "\n", " " y "" (en ese orden) con un chunk_size de 24 y un chunk_overlap de 10.
Divide quote e imprime los fragmentos y sus longitudes.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the recursive character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = ____

# Split the document and print the chunks
docs = ____
print(docs)
print([len(doc) for doc in docs])

Editar y ejecutar código

Este ejercicio forma parte del curso

Desarrollo de aplicaciones LLM con LangChain

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

Bienvenido al marco LangChain para crear aplicaciones en LLM Aprenderás los componentes principales de LangChain, incluidos los modelos, las cadenas, los agentes, los prompts y los analizadores sintácticos. Crearás chatbots utilizando tanto modelos de código abierto de Hugging Face como modelos nativos de OpenAI, crearás plantillas de prompts e integrarás diferentes estrategias de memoria para chatbots con el fin de gestionar el contexto y los recursos durante las conversaciones.

Exercise 1: El ecosistema de LangChain Exercise 2: Modelos OpenAI en LangChain Exercise 3: Modelos Hugging Face en LangChain Exercise 4: Plantillas de prompts Exercise 5: Plantillas de prompt y cadenas Exercise 6: Plantillas de prompts de chat Exercise 7: Prompts de pocos disparos Exercise 8: Creación del conjunto de ejemplos con pocos disparos Exercise 9: Creación de la plantilla de prompt de pocos disparos Exercise 10: Implementación de prompts de pocos disparos

Es hora de mejorar tus cadenas LangChain. Aprenderás a utilizar el lenguaje de expresión LangChain (LCEL) para definir cadenas con mayor flexibilidad. Crearás cadenas secuenciales, en las que las entradas se pasan entre componentes para crear aplicaciones más avanzadas. También empezarás a integrar agentes, que utilizan LLM para la toma de decisiones.

Exercise 1: Cadenas secuenciales Exercise 2: Creación de prompts para cadenas secuenciales Exercise 3: Cadenas secuenciales con LCEL Exercise 4: Introducción a los agentes de LangChain Exercise 5: ¿Qué es un agente?Exercise 6: Agentes ReAct Exercise 7: Herramientas personalizadas para agentes Exercise 8: Definición de una función para el uso de herramientas Exercise 9: Creación de herramientas personalizadas Exercise 10: Integración de herramientas personalizadas con agentes

Una limitación de los LLM es que tienen un límite de conocimientos debido a que se entrenan con datos hasta un punto determinado. En este capítulo, aprenderás a crear aplicaciones que utilizan la generación aumentada por recuperación (RAG) para integrar datos externos con los LLM. El flujo de trabajo de RAG contiene varios procesos diferentes, entre los que se incluyen la división de datos, la creación y el almacenamiento de las incrustaciones mediante una base de datos vectorial y la recuperación de la información más relevante para su uso en la aplicación. ¡Aprenderás a dominar todo el flujo de trabajo!

Exercise 1: Integración de cargadores de documentos Exercise 2: Cargadores de documentos PDF Exercise 3: Cargadores de documentos CSV Exercise 4: Cargadores de documentos HTML Exercise 5: División de datos externos para su recuperación Exercise 6: División por caracteres Exercise 7: División recursiva por caracteres

Ejercicio actual

Exercise 8: Dividir HTML Exercise 9: Almacenamiento y recuperación RAG mediante bases de datos vectoriales Exercise 10: Preparación de los documentos y la base de datos vectorial Exercise 11: Creación de una plantilla de prompt de recuperación Exercise 12: Creación de una cadena RAG Exercise 13: Resumimos.