PDF-documentloaders
Om te beginnen met Retrieval Augmented Generation (RAG) moet je eerst de documenten laden waar het model toegang toe krijgt. Deze documenten kunnen uit allerlei bronnen komen, en LangChain ondersteunt documentloaders voor veel daarvan.
In deze oefening gebruik je een documentloader om een PDF te laden met het paper RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture van Balaguer et al. (2024).
Let op: pypdf, een afhankelijkheid voor het laden van PDF-documenten in LangChain, is al voor je geïnstalleerd.
Deze oefening maakt deel uit van de cursus
LLM-toepassingen ontwikkelen met LangChain
Oefeninstructies
- Importeer de juiste klasse om PDF-documenten te laden in LangChain.
- Maak een documentloader voor het document
'rag_vs_fine_tuning.pdf', dat in de huidige map staat. - Laad het document in het geheugen om de inhoud van het eerste document, of de eerste pagina, te bekijken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import library
from langchain_community.document_loaders import ____
# Create a document loader for rag_vs_fine_tuning.pdf
loader = ____
# Load the document
data = ____
print(data[0])