Dividir de forma semántica

Todas las estrategias de división que has usado hasta ahora tienen la misma desventaja: la división no tiene en cuenta el contexto del texto circundante, por lo que el contexto puede perderse fácilmente durante el proceso.

En este ejercicio, crearás y aplicarás un divisor de texto semántico, un método experimental de vanguardia para dividir texto según su significado semántico. Cuando el divisor detecte que el significado del texto se ha desviado más allá de cierto umbral, se realizará una división.

Este ejercicio forma parte del curso

Retrieval Augmented Generation (RAG) con LangChain

Ver curso

Instrucciones del ejercicio

Instancia el modelo de embeddings de OpenAI 'text-embedding-3-small'.
Crea un divisor de texto semántico que use gradientes de vectores para determinar la similitud semántica y use 0.8 como el umbral a partir del cual dividir.
Divide el document usando el divisor semántico.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Instantiate an OpenAI embeddings model
embedding_model = ____(api_key="", model='____')

# Create the semantic text splitter with desired parameters
semantic_splitter = ____(
    embeddings=____, breakpoint_threshold_type="____", breakpoint_threshold_amount=____
)

# Split the document
chunks = ____
print(chunks[0])

Editar y ejecutar código