Documenten embedden en opslaan
De laatste stap in het voorbereiden van documenten voor retrieval is embedden en opslaan. Je gebruikt het model text-embedding-3-small van OpenAI om de gechunkte documenten te embedden en slaat ze op in een lokale Chroma vector database.
De chunks die je recursief hebt gemaakt door het artikel Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks te splitten, zijn al vooraf geladen.
Het aanmaken en gebruiken van een OpenAI API-sleutel is in deze oefening niet nodig. Je kunt de placeholder <OPENAI_API_TOKEN> laten staan; hiermee worden geldige verzoeken naar de OpenAI API gestuurd.
Deze oefening maakt deel uit van de cursus
Retrieval Augmented Generation (RAG) met LangChain
Oefeninstructies
- Initialiseer het standaard embeddingmodel van OpenAI.
- Embed de document-
chunksmetembedding_modelen sla ze op in een Chroma vector database.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize the OpenAI embedding model
embedding_model = ____(api_key="", model='text-embedding-3-small')
# Create a Chroma vector store and embed the chunks
vector_store = ____