Recursief splitsen op teken

Veel ontwikkelaars gebruiken een recursieve tekensplitser om documenten te splitsen op basis van een specifieke lijst met tekens. Standaard zijn dat alinea’s, regeleinden, spaties en lege strings: ["\n\n", "\n", " ", ""].

De splitter probeert eerst op alinea’s te splitsen, controleert of de waarden van chunk_size en chunk_overlap gehaald worden, en zo niet, splitst hij vervolgens op zinnen, dan woorden en individuele tekens.

Vaak moet je met verschillende waarden voor chunk_size en chunk_overlap experimenteren om te vinden wat goed werkt voor jouw documenten.

Deze oefening maakt deel uit van de cursus

LLM-toepassingen ontwikkelen met LangChain

Oefeninstructies

Importeer de klasse RecursiveCharacterTextSplitter uit langchain_text_splitters.
Maak een RecursiveCharacterTextSplitter-instantie met separators=["\n", " ", ""], chunk_size=24 en chunk_overlap=10.
Gebruik de methode .split_text() om de quote te splitsen en print de chunks en de chunklengtes.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the recursive character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = RecursiveCharacterTextSplitter(
    separators=____,
    chunk_size=____,
    chunk_overlap=____)

# Split the document and print the chunks
docs = splitter.____(quote)
print(docs)
print([len(doc) for doc in docs])

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

LLM-toepassingen ontwikkelen met LangChain

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Welkom bij het LangChain-framework voor het bouwen van applicaties met LLM’s! Je leert over de belangrijkste onderdelen van LangChain, waaronder modellen, chains, agents, prompts en parsers. Je bouwt chatbots met zowel open-sourcemodellen van Hugging Face als propriëtaire modellen van OpenAI, maakt promptsjablonen en integreert verschillende geheugenstrategieën voor chatbots om context en resources tijdens gesprekken te beheren.

Exercise 1: Het LangChain-ecosysteem Exercise 2: OpenAI-modellen in LangChain!Exercise 3: Hugging Face-modellen in LangChain!Exercise 4: Prompt-templates Exercise 5: Prompttemplates en chaining Exercise 6: Chatprompt-sjablonen Exercise 7: Few-shot prompting Exercise 8: De few-shot-voorbeelden maken Exercise 9: Een few-shot prompttemplate bouwen Exercise 10: Few-shot prompting implementeren

Tijd om je LangChain-chains naar een hoger niveau te tillen! Je leert de LangChain Expression Language (LCEL) gebruiken om chains flexibeler te definiëren. Je maakt sequentiële chains, waarbij invoer tussen componenten wordt doorgegeven om geavanceerdere applicaties te bouwen. Ook begin je met het integreren van agents, die LLM’s gebruiken voor besluitvorming.

Exercise 1: Sequentiële chains Exercise 2: Prompts bouwen voor sequentiële chains Exercise 3: Sequentiële chains met LCEL Exercise 4: Introductie tot LangChain-agents Exercise 5: Wat is een agent?Exercise 6: ReAct-agents Exercise 7: Aangepaste tools voor agents Exercise 8: Een functie definiëren voor toolgebruik Exercise 9: Eigen tools maken Exercise 10: Aangepaste tools integreren met agents

Een beperking van LLM’s is dat ze een kennisafbakening hebben doordat ze zijn getraind op data tot een bepaald moment. In dit hoofdstuk leer je applicaties bouwen die Retrieval Augmented Generation (RAG) gebruiken om externe data met LLM’s te integreren. De RAG-workflow bestaat uit meerdere stappen, zoals data opsplitsen, embeddings maken en opslaan met een vectordatabank, en de meest relevante informatie ophalen voor gebruik in de applicatie. Je leert de volledige workflow beheersen!

Exercise 1: Documentloaders integreren Exercise 2: PDF-documentloaders Exercise 3: CSV-documentloaders Exercise 4: HTML-documentloaders Exercise 5: Externe data splitsen voor retrieval Exercise 6: Splitsen op teken Exercise 7: Recursief splitsen op teken

Huidige oefening

Exercise 8: HTML splitsen Exercise 9: RAG-opslag en -opvraging met vectordatabases Exercise 10: De documenten en de vector database voorbereiden Exercise 11: Een retrieval-prompt-template bouwen Exercise 12: Een RAG-chain maken Exercise 13: Afronding!