Semantisches Splitting
Alle Splitting-Strategien, die du bisher verwendet hast, haben denselben Nachteil: Der Split berücksichtigt den Kontext des umgebenden Textes nicht, sodass beim Aufteilen leicht Kontext verloren gehen kann.
In dieser Übung erstellst und verwendest du einen semantischen Text-Splitter – eine hochmoderne, experimentelle Methode, die Text anhand seiner Bedeutung aufteilt. Wenn der Splitter erkennt, dass die Bedeutung des Textes einen bestimmten Schwellenwert überschreitet, wird ein Split durchgeführt.
Diese Übung ist Teil des Kurses
Retrieval Augmented Generation (RAG) mit LangChain
Anleitung zur Übung
- Instanziiere das Embedding-Modell
'text-embedding-3-small'von OpenAI. - Erstelle einen semantischen Text-Splitter, der Vektorgradienten verwendet, um semantische Ähnlichkeit zu bestimmen, und der
0.8als Schwellenwert für den Split nutzt. - Teile das
documentmit dem semantischen Splitter.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Instantiate an OpenAI embeddings model
embedding_model = ____(api_key="", model='____')
# Create the semantic text splitter with desired parameters
semantic_splitter = ____(
embeddings=____, breakpoint_threshold_type="____", breakpoint_threshold_amount=____
)
# Split the document
chunks = ____
print(chunks[0])