Generar embeddings y almacenar documentos
El último paso para preparar los documentos para su recuperación es generar sus embeddings y almacenarlos. Usarás el modelo text-embedding-3-small de OpenAI para crear los embeddings de los documentos fragmentados y los guardarás en una base de datos vectorial Chroma local.
Los chunks que creaste al dividir de forma recursiva el artículo Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks ya se han precargado.
No es necesario crear ni usar una clave de API de OpenAI en este ejercicio. Puedes dejar el marcador <OPENAI_API_TOKEN>, que enviará solicitudes válidas a la API de OpenAI.
Este ejercicio forma parte del curso
Retrieval Augmented Generation (RAG) con LangChain
Instrucciones del ejercicio
- Inicializa el modelo de embeddings predeterminado de OpenAI.
- Genera los embeddings de los
chunksdel documento usandoembedding_modely almacénalos en una base de datos vectorial Chroma.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Initialize the OpenAI embedding model
embedding_model = ____(api_key="", model='text-embedding-3-small')
# Create a Chroma vector store and embed the chunks
vector_store = ____