Aufteilen nach Zeichen

Ein wichtiger Schritt bei der Umsetzung von Retrieval Augmented Generation (RAG) ist, Dokumente in Textschnipsel (sogenannte Chunks) aufzuteilen, damit sie in einer Vektordatenbank gespeichert werden können.

In LangChain sind mehrere Chunking-Strategien verfügbar, von denen einige komplexer sind als andere. In dieser Übung wirst du einen Zeichen-Text-Trenner (character text splitter) implementieren, der Dokumente an bestimmten Zeichen auftrennt und die Chunk-Länge anhand der Zeichenanzahl bestimmt.

Bedenke, dass es nicht die eine perfekte Chunking-Strategie gibt. Für deinen Anwendungsfall musst du vermutlich einige ausprobieren, um die richtige für dich zu finden.

Diese Übung ist Teil des Kurses

<Kurs>Entwickeln von LLM-Anwendungen mit LangChain</Kurs>

Übungsanweisungen

Importiere die passende LangChain-Klasse, um ein Dokument nach Zeichen aufzuteilen.
Definiere einen Zeichentrenner, der bei "\n" (Zeilenumbruch) trennt, mit einer chunk_size von 24 und einem chunk_overlap von 10.
Teile das Zitat (quote) auf und lasse die Chunks und deren Länge ausgeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = ____

# Split the string and print the chunks
docs = ____
print(docs)
print([len(doc) for doc in docs])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Entwickeln von LLM-Anwendungen mit LangChain</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Willkommen beim LangChain-Framework zum Erstellen von Anwendungen mit LLMs! Du lernst die wichtigsten Komponenten von LangChain kennen, wie Modelle, Ketten, Agenten, Eingabeaufforderungen (Prompts) und Parser. Du wirst Chatbots mit Open-Source-Modellen von Hugging Face und proprietären Modellen von OpenAI erstellen, Prompt-Vorlagen erstellen und verschiedene Chatbot-Speicherstrategien integrieren, um den Kontext des Modells und die Ressourcen während der Unterhaltungen zu verwalten.

Exercise 1: Das LangChain-Ökosystem Exercise 2: OpenAI-Modelle in LangChain!Exercise 3: Hugging Face-Modelle in LangChain!Exercise 4: Prompt-Vorlagen Exercise 5: Prompt-Vorlagen und Verkettung Exercise 6: Vorlagen für Chat-Prompts Exercise 7: Few-Shot (wenige Beispiele) Prompting Exercise 8: Einen Few-Shot-Beispieldatensatzes erstellen Exercise 9: Erstellen der Few-Shot-Prompt-Vorlage Exercise 10: Implementierung von Few-Shot-Prompting

Zeit, deine LangChain-Ketten auf ein neues Niveau zu bringen! Du lernst, wie du die LangChain Expression Language (LCEL) nutzen kannst, um Ketten flexibler zu definieren. Du erstellst sequenzielle Ketten, in denen Eingaben zwischen Komponenten weitergegeben werden, um komplexere Anwendungen zu erstellen. Durch die Integration von Agenten wirst du LLMs für die Entscheidungsfindung nutzen.

Exercise 1: Sequenzielle Ketten Exercise 2: Bauanleitung für sequenzielle Ketten Exercise 3: Sequenzielle Ketten mit LCEL Exercise 4: Einführung in LangChain-Agenten Exercise 5: Was ist ein Agent?Exercise 6: ReAct-Agenten Exercise 7: Individuelle Werkzeug für Agenten Exercise 8: Eine Funktion für den Werkzeuggebrauch definieren Exercise 9: Individuelle Werkzeuge erstellen Exercise 10: Integration von individuellen Werkzeugen mit Agenten

Eine Einschränkung von LLMs ist, dass sie nur mit Informationen bis zu einem bestimmten Datum trainiert werden können und daher ihr Wissen begrenzt ist. In diesem Kapitel lernst du, wie du Anwendungen erstellst, die Retrieval Augmented Generation (RAG) nutzen, um externe Daten LLMs zugänglich zu machen. Der RAG-Workflow besteht aus verschiedenen Prozessen, wie zum Beispiel das Aufteilen von Daten, das Erstellen und Speichern der Vektoreinbettungen mit einer Vektordatenbank und das Abrufen der relevantesten Infos für die Anwendung. Du lernst den ganzen Ablauf zu meistern!

Exercise 1: Document Loader integrieren Exercise 2: PDF Document Loader Exercise 3: CSV Document Loader Exercise 4: HTM Document Loader Exercise 5: Aufteilen externer Daten für den Abruf Exercise 6: Aufteilen nach Zeichen

Aktuelle Übung

Exercise 7: Rekursives Aufteilen nach Zeichen Exercise 8: HTML teilen Exercise 9: RAG-Speicherung und -Abruf mit Vektordatenbanken Exercise 10: Vorbereitung der Dokumente und der Vektordatenbank Exercise 11: Erstellen einer Vorlage für Abfrage-Prompts Exercise 12: Eine RAG-Kette erstellen Exercise 13: Zusammenfassung