Semantisches Splitting
Alle Splitting-Strategien, die du bisher verwendet hast, haben denselben Nachteil: Der Split berücksichtigt den Kontext des umgebenden Textes nicht, sodass beim Aufteilen leicht Kontext verloren gehen kann.
In dieser Übung erstellst und verwendest du einen semantischen Text-Splitter – eine hochmoderne, experimentelle Methode, die Text anhand seiner Bedeutung aufteilt. Wenn der Splitter erkennt, dass die Bedeutung des Textes einen bestimmten Schwellenwert überschreitet, wird ein Split durchgeführt.
Diese Übung ist Teil des Kurses
<Kurs>Retrieval Augmented Generation (RAG) mit LangChain</Kurs>Übungsanweisungen
- Instanziiere das Embedding-Modell
'text-embedding-3-small'von OpenAI. - Erstelle einen semantischen Text-Splitter, der Vektorgradienten verwendet, um semantische Ähnlichkeit zu bestimmen, und der
0.8als Schwellenwert für den Split nutzt. - Teile das
documentmit dem semantischen Splitter.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Instantiate an OpenAI embeddings model
embedding_model = ____(api_key="", model='____')
# Create the semantic text splitter with desired parameters
semantic_splitter = ____(
embeddings=____, breakpoint_threshold_type="____", breakpoint_threshold_amount=____
)
# Split the document
chunks = ____
print(chunks[0])