LoslegenKostenlos starten

Semantisches Splitting

Alle Splitting-Strategien, die du bisher verwendet hast, haben denselben Nachteil: Der Split berücksichtigt den Kontext des umgebenden Textes nicht, sodass beim Aufteilen leicht Kontext verloren gehen kann.

In dieser Übung erstellst und verwendest du einen semantischen Text-Splitter – eine hochmoderne, experimentelle Methode, die Text anhand seiner Bedeutung aufteilt. Wenn der Splitter erkennt, dass die Bedeutung des Textes einen bestimmten Schwellenwert überschreitet, wird ein Split durchgeführt.

Diese Übung ist Teil des Kurses

<Kurs>Retrieval Augmented Generation (RAG) mit LangChain</Kurs>
Kurs ansehen

Übungsanweisungen

  • Instanziiere das Embedding-Modell 'text-embedding-3-small' von OpenAI.
  • Erstelle einen semantischen Text-Splitter, der Vektorgradienten verwendet, um semantische Ähnlichkeit zu bestimmen, und der 0.8 als Schwellenwert für den Split nutzt.
  • Teile das document mit dem semantischen Splitter.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Instantiate an OpenAI embeddings model
embedding_model = ____(api_key="", model='____')

# Create the semantic text splitter with desired parameters
semantic_splitter = ____(
    embeddings=____, breakpoint_threshold_type="____", breakpoint_threshold_amount=____
)

# Split the document
chunks = ____
print(chunks[0])
Code bearbeiten und ausführen