Carregadores de documentos PDF
Para começar a implementar a Retrieval Augmented Generation (RAG), primeiro você precisa carregar os documentos que o modelo vai acessar. Esses documentos podem vir de várias fontes, e o LangChain oferece suporte a carregadores de documentos para muitas delas.
Neste exercício, você vai usar um carregador de documentos para carregar um documento PDF com o artigo RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture, por Balaguer et al. (2024).
Observação: pypdf
, uma dependência necessária para carregar documentos PDF no LangChain, já está instalada para você.
Este exercício faz parte do curso
Desenvolvimento de aplicativos de LLM com LangChain
Instruções do exercício
- Importe a classe certa para carregar documentos PDF no LangChain.
- Crie um carregador de documentos para o documento
'rag_vs_fine_tuning.pdf'
, que está disponível no diretório atual. - Carregue o documento na memória para ver o conteúdo do primeiro documento ou página.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import library
from langchain_community.document_loaders import ____
# Create a document loader for rag_vs_fine_tuning.pdf
loader = ____
# Load the document
data = ____
print(data[0])