Rekursives Aufteilen nach Zeichen

Viele Entwickler benutzen einen rekursiven Zeichentrenner, um Dokumente anhand einer bestimmten Liste von Zeichen zu trennen. Standardmäßig sind das Absätze, Zeilenumbrüche, Leerzeichen und leere Zeichenfolgen: ["\n\n", "\n", " ", ""].

Der Splitter versucht, den Text nach Absätzen zu teilen, prüft, ob die Werte für chunk_size und chunk_overlap erfüllt sind. Wenn nicht teilt er den Text nach Sätzen, dann nach Wörtern und schließlich nach einzelnen Zeichen.

Oft musst du mit verschiedenen Werten für chunk_size und chunk_overlap experimentieren, um die für deine Dokumente passenden Werte zu finden.

Diese Übung ist Teil des Kurses

<Kurs>Entwickeln von LLM-Anwendungen mit LangChain</Kurs>

Übungsanweisungen

Importiere die passende LangChain-Klasse, um ein Dokument rekursiv nach Zeichen aufzuteilen.
Definiere einen rekursiven Zeichentrenner, um die Zeichen "\n", " " und "" (in dieser Reihenfolge) zu trennen, mit einerchunk_size von 24 und einem chunk_overlap von 10.
Teile das Zitat (quote) auf und lasse die Chunks und deren Länge ausgeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the recursive character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = ____

# Split the document and print the chunks
docs = ____
print(docs)
print([len(doc) for doc in docs])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Entwickeln von LLM-Anwendungen mit LangChain</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Willkommen beim LangChain-Framework zum Erstellen von Anwendungen mit LLMs! Du lernst die wichtigsten Komponenten von LangChain kennen, wie Modelle, Ketten, Agenten, Eingabeaufforderungen (Prompts) und Parser. Du wirst Chatbots mit Open-Source-Modellen von Hugging Face und proprietären Modellen von OpenAI erstellen, Prompt-Vorlagen erstellen und verschiedene Chatbot-Speicherstrategien integrieren, um den Kontext des Modells und die Ressourcen während der Unterhaltungen zu verwalten.

Exercise 1: Das LangChain-Ökosystem Exercise 2: OpenAI-Modelle in LangChain!Exercise 3: Hugging Face-Modelle in LangChain!Exercise 4: Prompt-Vorlagen Exercise 5: Prompt-Vorlagen und Verkettung Exercise 6: Vorlagen für Chat-Prompts Exercise 7: Few-Shot (wenige Beispiele) Prompting Exercise 8: Einen Few-Shot-Beispieldatensatzes erstellen Exercise 9: Erstellen der Few-Shot-Prompt-Vorlage Exercise 10: Implementierung von Few-Shot-Prompting

Zeit, deine LangChain-Ketten auf ein neues Niveau zu bringen! Du lernst, wie du die LangChain Expression Language (LCEL) nutzen kannst, um Ketten flexibler zu definieren. Du erstellst sequenzielle Ketten, in denen Eingaben zwischen Komponenten weitergegeben werden, um komplexere Anwendungen zu erstellen. Durch die Integration von Agenten wirst du LLMs für die Entscheidungsfindung nutzen.

Exercise 1: Sequenzielle Ketten Exercise 2: Bauanleitung für sequenzielle Ketten Exercise 3: Sequenzielle Ketten mit LCEL Exercise 4: Einführung in LangChain-Agenten Exercise 5: Was ist ein Agent?Exercise 6: ReAct-Agenten Exercise 7: Individuelle Werkzeug für Agenten Exercise 8: Eine Funktion für den Werkzeuggebrauch definieren Exercise 9: Individuelle Werkzeuge erstellen Exercise 10: Integration von individuellen Werkzeugen mit Agenten

Eine Einschränkung von LLMs ist, dass sie nur mit Informationen bis zu einem bestimmten Datum trainiert werden können und daher ihr Wissen begrenzt ist. In diesem Kapitel lernst du, wie du Anwendungen erstellst, die Retrieval Augmented Generation (RAG) nutzen, um externe Daten LLMs zugänglich zu machen. Der RAG-Workflow besteht aus verschiedenen Prozessen, wie zum Beispiel das Aufteilen von Daten, das Erstellen und Speichern der Vektoreinbettungen mit einer Vektordatenbank und das Abrufen der relevantesten Infos für die Anwendung. Du lernst den ganzen Ablauf zu meistern!

Exercise 1: Document Loader integrieren Exercise 2: PDF Document Loader Exercise 3: CSV Document Loader Exercise 4: HTM Document Loader Exercise 5: Aufteilen externer Daten für den Abruf Exercise 6: Aufteilen nach Zeichen Exercise 7: Rekursives Aufteilen nach Zeichen

Aktuelle Übung

Exercise 8: HTML teilen Exercise 9: RAG-Speicherung und -Abruf mit Vektordatenbanken Exercise 10: Vorbereitung der Dokumente und der Vektordatenbank Exercise 11: Erstellen einer Vorlage für Abfrage-Prompts Exercise 12: Eine RAG-Kette erstellen Exercise 13: Zusammenfassung