PDF-documentloaders

Om te beginnen met Retrieval Augmented Generation (RAG) moet je eerst de documenten laden waar het model toegang toe krijgt. Deze documenten kunnen uit allerlei bronnen komen, en LangChain ondersteunt documentloaders voor veel daarvan.

In deze oefening gebruik je een documentloader om een PDF te laden met het paper RAG VS Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture van Balaguer et al. (2024).

Let op: pypdf, een afhankelijkheid voor het laden van PDF-documenten in LangChain, is al voor je geïnstalleerd.

Deze oefening maakt deel uit van de cursus

LLM-toepassingen ontwikkelen met LangChain

Oefeninstructies

Importeer de juiste klasse om PDF-documenten te laden in LangChain.
Maak een documentloader voor het document 'rag_vs_fine_tuning.pdf', dat in de huidige map staat.
Laad het document in het geheugen om de inhoud van het eerste document, of de eerste pagina, te bekijken.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import library
from langchain_community.document_loaders import ____

# Create a document loader for rag_vs_fine_tuning.pdf
loader = ____

# Load the document
data = ____
print(data[0])

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

LLM-toepassingen ontwikkelen met LangChain

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Welkom bij het LangChain-framework voor het bouwen van applicaties met LLM’s! Je leert over de belangrijkste onderdelen van LangChain, waaronder modellen, chains, agents, prompts en parsers. Je bouwt chatbots met zowel open-sourcemodellen van Hugging Face als propriëtaire modellen van OpenAI, maakt promptsjablonen en integreert verschillende geheugenstrategieën voor chatbots om context en resources tijdens gesprekken te beheren.

Exercise 1: Het LangChain-ecosysteem Exercise 2: OpenAI-modellen in LangChain!Exercise 3: Hugging Face-modellen in LangChain!Exercise 4: Prompt-templates Exercise 5: Prompttemplates en chaining Exercise 6: Chatprompt-sjablonen Exercise 7: Few-shot prompting Exercise 8: De few-shot-voorbeelden maken Exercise 9: Een few-shot prompttemplate bouwen Exercise 10: Few-shot prompting implementeren

Tijd om je LangChain-chains naar een hoger niveau te tillen! Je leert de LangChain Expression Language (LCEL) gebruiken om chains flexibeler te definiëren. Je maakt sequentiële chains, waarbij invoer tussen componenten wordt doorgegeven om geavanceerdere applicaties te bouwen. Ook begin je met het integreren van agents, die LLM’s gebruiken voor besluitvorming.

Exercise 1: Sequentiële chains Exercise 2: Prompts bouwen voor sequentiële chains Exercise 3: Sequentiële chains met LCEL Exercise 4: Introductie tot LangChain-agents Exercise 5: Wat is een agent?Exercise 6: ReAct-agents Exercise 7: Aangepaste tools voor agents Exercise 8: Een functie definiëren voor toolgebruik Exercise 9: Eigen tools maken Exercise 10: Aangepaste tools integreren met agents

Een beperking van LLM’s is dat ze een kennisafbakening hebben doordat ze zijn getraind op data tot een bepaald moment. In dit hoofdstuk leer je applicaties bouwen die Retrieval Augmented Generation (RAG) gebruiken om externe data met LLM’s te integreren. De RAG-workflow bestaat uit meerdere stappen, zoals data opsplitsen, embeddings maken en opslaan met een vectordatabank, en de meest relevante informatie ophalen voor gebruik in de applicatie. Je leert de volledige workflow beheersen!

Exercise 1: Documentloaders integreren Exercise 2: PDF-documentloaders

Huidige oefening

Exercise 3: CSV-documentloaders Exercise 4: HTML-documentloaders Exercise 5: Externe data splitsen voor retrieval Exercise 6: Splitsen op teken Exercise 7: Recursief splitsen op teken Exercise 8: HTML splitsen Exercise 9: RAG-opslag en -opvraging met vectordatabases Exercise 10: De documenten en de vector database voorbereiden Exercise 11: Een retrieval-prompt-template bouwen Exercise 12: Een RAG-chain maken Exercise 13: Afronding!