Membuat embedding dan menyimpan dokumen
Langkah terakhir dalam menyiapkan dokumen untuk pengambilan adalah membuat embedding dan menyimpannya. Anda akan menggunakan model text-embedding-3-small dari OpenAI untuk membuat embedding pada dokumen yang telah dipecah menjadi potongan, lalu menyimpannya di basis data vektor Chroma lokal.
chunks yang Anda buat dari pemisahan makalah Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks secara rekursif telah dimuat sebelumnya.
Membuat dan menggunakan kunci API OpenAI tidak diperlukan dalam latihan ini. Anda dapat membiarkan placeholder <OPENAI_API_TOKEN>, yang akan mengirim permintaan valid ke OpenAI API.
Latihan ini adalah bagian dari kursus
Retrieval Augmented Generation (RAG) dengan LangChain
Petunjuk latihan
- Inisialisasi model embedding default dari OpenAI.
- Buat embedding untuk
chunksdokumen menggunakanembedding_modeldan simpan di basis data vektor Chroma.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Initialize the OpenAI embedding model
embedding_model = ____(api_key="", model='text-embedding-3-small')
# Create a Chroma vector store and embed the chunks
vector_store = ____