Splitsen op teken

Een belangrijk proces bij het implementeren van Retrieval Augmented Generation (RAG) is het opsplitsen van documenten in chunks om ze op te slaan in een vectordatabase.

Er zijn verschillende splitstrategieën beschikbaar in LangChain, sommige met complexere routines dan andere. In deze oefening implementeer je een character text splitter, die documenten splitst op basis van tekens en de chunk-lengte meet aan de hand van het aantal tekens.

Onthoud dat er geen ideale splitstrategie is; je zult mogelijk met een paar moeten experimenteren om te vinden wat het beste werkt voor jouw usecase.

Deze oefening maakt deel uit van de cursus

LLM-toepassingen ontwikkelen met LangChain

Oefeninstructies

Importeer de klasse CharacterTextSplitter uit langchain_text_splitters.
Maak een CharacterTextSplitter-instance met separator="\n", chunk_size=24 en chunk_overlap=10.
Gebruik de methode .split_text() om de quote te splitsen en print de chunks en chunklengtes.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = CharacterTextSplitter(
    separator=____,
    chunk_size=____,
    chunk_overlap=____)

# Split the string and print the chunks
docs = splitter.____(quote)
print(docs)
print([len(doc) for doc in docs])

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

LLM-toepassingen ontwikkelen met LangChain

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Welkom bij het LangChain-framework voor het bouwen van applicaties met LLM’s! Je leert over de belangrijkste onderdelen van LangChain, waaronder modellen, chains, agents, prompts en parsers. Je bouwt chatbots met zowel open-sourcemodellen van Hugging Face als propriëtaire modellen van OpenAI, maakt promptsjablonen en integreert verschillende geheugenstrategieën voor chatbots om context en resources tijdens gesprekken te beheren.

Exercise 1: Het LangChain-ecosysteem Exercise 2: OpenAI-modellen in LangChain!Exercise 3: Hugging Face-modellen in LangChain!Exercise 4: Prompt-templates Exercise 5: Prompttemplates en chaining Exercise 6: Chatprompt-sjablonen Exercise 7: Few-shot prompting Exercise 8: De few-shot-voorbeelden maken Exercise 9: Een few-shot prompttemplate bouwen Exercise 10: Few-shot prompting implementeren

Tijd om je LangChain-chains naar een hoger niveau te tillen! Je leert de LangChain Expression Language (LCEL) gebruiken om chains flexibeler te definiëren. Je maakt sequentiële chains, waarbij invoer tussen componenten wordt doorgegeven om geavanceerdere applicaties te bouwen. Ook begin je met het integreren van agents, die LLM’s gebruiken voor besluitvorming.

Exercise 1: Sequentiële chains Exercise 2: Prompts bouwen voor sequentiële chains Exercise 3: Sequentiële chains met LCEL Exercise 4: Introductie tot LangChain-agents Exercise 5: Wat is een agent?Exercise 6: ReAct-agents Exercise 7: Aangepaste tools voor agents Exercise 8: Een functie definiëren voor toolgebruik Exercise 9: Eigen tools maken Exercise 10: Aangepaste tools integreren met agents

Een beperking van LLM’s is dat ze een kennisafbakening hebben doordat ze zijn getraind op data tot een bepaald moment. In dit hoofdstuk leer je applicaties bouwen die Retrieval Augmented Generation (RAG) gebruiken om externe data met LLM’s te integreren. De RAG-workflow bestaat uit meerdere stappen, zoals data opsplitsen, embeddings maken en opslaan met een vectordatabank, en de meest relevante informatie ophalen voor gebruik in de applicatie. Je leert de volledige workflow beheersen!

Exercise 1: Documentloaders integreren Exercise 2: PDF-documentloaders Exercise 3: CSV-documentloaders Exercise 4: HTML-documentloaders Exercise 5: Externe data splitsen voor retrieval Exercise 6: Splitsen op teken

Huidige oefening

Exercise 7: Recursief splitsen op teken Exercise 8: HTML splitsen Exercise 9: RAG-opslag en -opvraging met vectordatabases Exercise 10: De documenten en de vector database voorbereiden Exercise 11: Een retrieval-prompt-template bouwen Exercise 12: Een RAG-chain maken Exercise 13: Afronding!