Carregando arquivos PDF para RAG
Para começar a implementar Retrieval Augmented Generation (RAG), você primeiro precisa carregar os documentos aos quais o modelo terá acesso. Esses documentos podem vir de várias fontes, e o LangChain oferece carregadores de documentos para muitas delas.
Neste exercício, você vai usar um carregador de documentos para carregar um PDF que contém o artigo Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks de Lewis et al. (2021). Esse arquivo está disponível para você como 'rag_paper.pdf'.
Observação: pypdf, uma dependência para carregar documentos PDF no LangChain, já foi instalada para você.
Este exercício faz parte do curso
Retrieval Augmented Generation (RAG) com LangChain
Instruções do exercício
- Importe a classe apropriada para carregar documentos PDF no LangChain.
- Crie um carregador de documentos para o arquivo
'rag_paper.pdf'. - Carregue o documento na memória para visualizar o conteúdo do primeiro documento, ou página.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import library
from langchain_community.document_loaders import ____
# Create a document loader for rag_paper.pdf
loader = ____
# Load the document
data = ____
print(data[0])