LoslegenKostenlos loslegen

Aufteilen nach Zeichen

Ein wichtiger Schritt bei der Umsetzung von Retrieval Augmented Generation (RAG) ist, Dokumente in Textschnipsel (sogenannte Chunks) aufzuteilen, damit sie in einer Vektordatenbank gespeichert werden können.

In LangChain sind mehrere Chunking-Strategien verfügbar, von denen einige komplexer sind als andere. In dieser Übung wirst du einen Zeichen-Text-Trenner (character text splitter) implementieren, der Dokumente an bestimmten Zeichen auftrennt und die Chunk-Länge anhand der Zeichenanzahl bestimmt.

Bedenke, dass es nicht die eine perfekte Chunking-Strategie gibt. Für deinen Anwendungsfall musst du vermutlich einige ausprobieren, um die richtige für dich zu finden.

Diese Übung ist Teil des Kurses

Entwickeln von LLM-Anwendungen mit LangChain

Kurs anzeigen

Anleitung zur Übung

  • Importiere die passende LangChain-Klasse, um ein Dokument nach Zeichen aufzuteilen.
  • Definiere einen Zeichentrenner, der bei "\n" (Zeilenumbruch) trennt, mit einer chunk_size von 24 und einem chunk_overlap von 10.
  • Teile das Zitat (quote) auf und lasse die Chunks und deren Länge ausgeben.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = ____

# Split the string and print the chunks
docs = ____
print(docs)
print([len(doc) for doc in docs])
Code bearbeiten und ausführen