Cargadores de documentos PDF
Para empezar a implementar la generación aumentada por recuperación (RAG), primero tendrás que cargar los documentos a los que accederá el modelo. Estos documentos pueden provenir de diversas fuentes, y LangChain admite cargadores de documentos para muchas de ellas.
En este ejercicio, utilizarás un cargador de documentos para cargar un documento PDF que contiene el artículo RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture de Balaguer et al. (2024).
Nota: pypdf
, una dependencia para cargar documentos PDF en LangChain, ya se ha instalado por ti.
Este ejercicio forma parte del curso
Desarrollo de aplicaciones LLM con LangChain
Instrucciones del ejercicio
- Importa la clase adecuada para cargar documentos PDF en LangChain.
- Crea un cargador de documentos para el documento
'rag_vs_fine_tuning.pdf'
, que está disponible en el directorio actual. - Carga el documento en la memoria para ver el contenido del primer documento o página.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import library
from langchain_community.document_loaders import ____
# Create a document loader for rag_vs_fine_tuning.pdf
loader = ____
# Load the document
data = ____
print(data[0])