Encoder et stocker des documents

La dernière étape pour préparer les documents à la recherche consiste à les encoder et à les stocker. Vous utiliserez le modèle text-embedding-3-small d’OpenAI pour encoder les documents segmentés, puis vous les enregistrerez dans une base de données vectorielle Chroma locale.

Les chunks que vous avez créés en découpant récursivement l’article Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks ont été préchargés.

La création et l’utilisation d’une clé d’API OpenAI ne sont pas nécessaires dans cet exercice. Vous pouvez laisser l’espace réservé <OPENAI_API_TOKEN>, ce qui enverra des requêtes valides à l’API d’OpenAI.

Cet exercice fait partie du cours

Retrieval Augmented Generation (RAG) avec LangChain

Afficher le cours

Instructions

Initialisez le modèle d’« embeddings » par défaut d’OpenAI.
Encodez les chunks du document avec embedding_model et stockez-les dans une base de données vectorielle Chroma.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Initialize the OpenAI embedding model
embedding_model = ____(api_key="", model='text-embedding-3-small')

# Create a Chroma vector store and embed the chunks
vector_store = ____

Modifier et exécuter le code