Cargadores de documentos PDF

Para empezar a implementar la generación aumentada por recuperación (RAG), primero tendrás que cargar los documentos a los que accederá el modelo. Estos documentos pueden provenir de diversas fuentes, y LangChain admite cargadores de documentos para muchas de ellas.

En este ejercicio, utilizarás un cargador de documentos para cargar un documento PDF que contiene el artículo RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture de Balaguer et al. (2024).

Nota: pypdf, una dependencia para cargar documentos PDF en LangChain, ya se ha instalado por ti.

Este ejercicio forma parte del curso

Desarrollo de aplicaciones LLM con LangChain

Instrucciones del ejercicio

Importa la clase adecuada para cargar documentos PDF en LangChain.
Crea un cargador de documentos para el documento 'rag_vs_fine_tuning.pdf', que está disponible en el directorio actual.
Carga el documento en la memoria para ver el contenido del primer documento o página.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import library
from langchain_community.document_loaders import ____

# Create a document loader for rag_vs_fine_tuning.pdf
loader = ____

# Load the document
data = ____
print(data[0])

Editar y ejecutar código

Este ejercicio forma parte del curso

Desarrollo de aplicaciones LLM con LangChain

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

Bienvenido al marco LangChain para crear aplicaciones en LLM Aprenderás los componentes principales de LangChain, incluidos los modelos, las cadenas, los agentes, los prompts y los analizadores sintácticos. Crearás chatbots utilizando tanto modelos de código abierto de Hugging Face como modelos nativos de OpenAI, crearás plantillas de prompts e integrarás diferentes estrategias de memoria para chatbots con el fin de gestionar el contexto y los recursos durante las conversaciones.

Exercise 1: El ecosistema de LangChain Exercise 2: Modelos OpenAI en LangChain Exercise 3: Modelos Hugging Face en LangChain Exercise 4: Plantillas de prompts Exercise 5: Plantillas de prompt y cadenas Exercise 6: Plantillas de prompts de chat Exercise 7: Prompts de pocos disparos Exercise 8: Creación del conjunto de ejemplos con pocos disparos Exercise 9: Creación de la plantilla de prompt de pocos disparos Exercise 10: Implementación de prompts de pocos disparos

Es hora de mejorar tus cadenas LangChain. Aprenderás a utilizar el lenguaje de expresión LangChain (LCEL) para definir cadenas con mayor flexibilidad. Crearás cadenas secuenciales, en las que las entradas se pasan entre componentes para crear aplicaciones más avanzadas. También empezarás a integrar agentes, que utilizan LLM para la toma de decisiones.

Exercise 1: Cadenas secuenciales Exercise 2: Creación de prompts para cadenas secuenciales Exercise 3: Cadenas secuenciales con LCEL Exercise 4: Introducción a los agentes de LangChain Exercise 5: ¿Qué es un agente?Exercise 6: Agentes ReAct Exercise 7: Herramientas personalizadas para agentes Exercise 8: Definición de una función para el uso de herramientas Exercise 9: Creación de herramientas personalizadas Exercise 10: Integración de herramientas personalizadas con agentes

Una limitación de los LLM es que tienen un límite de conocimientos debido a que se entrenan con datos hasta un punto determinado. En este capítulo, aprenderás a crear aplicaciones que utilizan la generación aumentada por recuperación (RAG) para integrar datos externos con los LLM. El flujo de trabajo de RAG contiene varios procesos diferentes, entre los que se incluyen la división de datos, la creación y el almacenamiento de las incrustaciones mediante una base de datos vectorial y la recuperación de la información más relevante para su uso en la aplicación. ¡Aprenderás a dominar todo el flujo de trabajo!

Exercise 1: Integración de cargadores de documentos Exercise 2: Cargadores de documentos PDF

Ejercicio actual

Exercise 3: Cargadores de documentos CSV Exercise 4: Cargadores de documentos HTML Exercise 5: División de datos externos para su recuperación Exercise 6: División por caracteres Exercise 7: División recursiva por caracteres Exercise 8: Dividir HTML Exercise 9: Almacenamiento y recuperación RAG mediante bases de datos vectoriales Exercise 10: Preparación de los documentos y la base de datos vectorial Exercise 11: Creación de una plantilla de prompt de recuperación Exercise 12: Creación de una cadena RAG Exercise 13: Resumimos.