LoslegenKostenlos loslegen

Semantisches Splitting

Alle Splitting-Strategien, die du bisher verwendet hast, haben denselben Nachteil: Der Split berücksichtigt den Kontext des umgebenden Textes nicht, sodass beim Aufteilen leicht Kontext verloren gehen kann.

In dieser Übung erstellst und verwendest du einen semantischen Text-Splitter – eine hochmoderne, experimentelle Methode, die Text anhand seiner Bedeutung aufteilt. Wenn der Splitter erkennt, dass die Bedeutung des Textes einen bestimmten Schwellenwert überschreitet, wird ein Split durchgeführt.

Diese Übung ist Teil des Kurses

Retrieval Augmented Generation (RAG) mit LangChain

Kurs anzeigen

Anleitung zur Übung

  • Instanziiere das Embedding-Modell 'text-embedding-3-small' von OpenAI.
  • Erstelle einen semantischen Text-Splitter, der Vektorgradienten verwendet, um semantische Ähnlichkeit zu bestimmen, und der 0.8 als Schwellenwert für den Split nutzt.
  • Teile das document mit dem semantischen Splitter.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Instantiate an OpenAI embeddings model
embedding_model = ____(api_key="", model='____')

# Create the semantic text splitter with desired parameters
semantic_splitter = ____(
    embeddings=____, breakpoint_threshold_type="____", breakpoint_threshold_amount=____
)

# Split the document
chunks = ____
print(chunks[0])
Code bearbeiten und ausführen