Aan de slagGa gratis aan de slag

PDF-bestanden laden voor RAG

Om te beginnen met Retrieval Augmented Generation (RAG), moet je eerst de documenten laden waar het model toegang toe heeft. Deze documenten kunnen uit allerlei bronnen komen, en LangChain biedt documentloaders voor veel van die bronnen.

In deze oefening gebruik je een documentloader om een PDF te laden met het artikel Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks van Lewis et al. (2021). Dit bestand is voor je beschikbaar als 'rag_paper.pdf'.

Opmerking: pypdf, een dependency voor het laden van PDF-documenten in LangChain, is al voor je geïnstalleerd.

Deze oefening maakt deel uit van de cursus

Retrieval Augmented Generation (RAG) met LangChain

Cursus bekijken

Oefeninstructies

  • Importeer de juiste klasse om PDF-documenten in LangChain te laden.
  • Maak een documentloader voor het document 'rag_paper.pdf'.
  • Laad het document in het geheugen om de inhoud van het eerste document, of de eerste pagina, te bekijken.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import library
from langchain_community.document_loaders import ____

# Create a document loader for rag_paper.pdf
loader = ____

# Load the document
data = ____
print(data[0])
Code bewerken en uitvoeren