Encoder et stocker des documents
La dernière étape pour préparer les documents à la recherche consiste à les encoder et à les stocker. Vous utiliserez le modèle text-embedding-3-small d’OpenAI pour encoder les documents segmentés, puis vous les enregistrerez dans une base de données vectorielle Chroma locale.
Les chunks que vous avez créés en découpant récursivement l’article Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks ont été préchargés.
La création et l’utilisation d’une clé d’API OpenAI ne sont pas nécessaires dans cet exercice. Vous pouvez laisser l’espace réservé <OPENAI_API_TOKEN>, ce qui enverra des requêtes valides à l’API d’OpenAI.
Cet exercice fait partie du cours
Retrieval Augmented Generation (RAG) avec LangChain
Instructions
- Initialisez le modèle d’« embeddings » par défaut d’OpenAI.
- Encodez les
chunksdu document avecembedding_modelet stockez-les dans une base de données vectorielle Chroma.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Initialize the OpenAI embedding model
embedding_model = ____(api_key="", model='text-embedding-3-small')
# Create a Chroma vector store and embed the chunks
vector_store = ____