Membangun fungsi retrieval

Proses kunci dalam alur kerja Retrieval Augmented Generation (RAG) adalah mengambil data dari basis data. Pada latihan ini, Anda akan merancang fungsi kustom bernama retrieve() yang akan menjalankan proses krusial ini di latihan terakhir kursus.

Latihan ini merupakan bagian dari kursus

Database Vektor untuk Embeddings dengan Pinecone

Instruksi latihan

Inisialisasi klien Pinecone dengan API key Anda (klien OpenAI tersedia sebagai client).
Definisikan fungsi retrieve yang menerima empat parameter: query, top_k, namespace, dan emb_model.
Buat embedding untuk query masukan menggunakan argumen emb_model.
Ambil top_k vektor yang paling mirip dengan query_emb beserta metadata, dengan menetapkan namespace yang diberikan ke fungsi sebagai argumen.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

# Define a retrieve function that takes four arguments: query, top_k, namespace, and emb_model
def retrieve(query, top_k, namespace, emb_model):
    # Encode the input query using OpenAI
    query_response = ____(
        input=____,
        model=____
    )
    
    query_emb = query_response.data[0].embedding
    
    # Query the index using the query_emb
    docs = index.query(vector=____, top_k=____, namespace=____, include_metadata=True)
    
    retrieved_docs = []
    sources = []
    for doc in docs['matches']:
        retrieved_docs.append(doc['metadata']['text'])
        sources.append((doc['metadata']['title'], doc['metadata']['url']))
    
    return retrieved_docs, sources

documents, sources = retrieve(
  query="How to build next-level Q&A with OpenAI",
  top_k=3,
  namespace='youtube_rag_dataset',
  emb_model="text-embedding-3-small"
)
print(documents)
print(sources)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Database Vektor untuk Embeddings dengan Pinecone

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Jelajahi mekanisme di balik database vektor Pinecone, mulai dari pod dan indeks hingga perbandingan dengan database lain. Pelajari membedakan jenis pod, memperoleh kunci API, dan menginisialisasi koneksi Pinecone menggunakan Python. Terakhir, Anda akan mempelajari cara membuat indeks Pinecone, mengeksplorasi berbagai parameter seperti dimensi, metrik jarak, jenis pod, dan lainnya.

Exercise 1: Pengantar indeks Pinecone Exercise 2: Membuat klien Pinecone Exercise 3: Indeks Pinecone pertama Anda Exercise 4: Mengelola indeks Exercise 5: Menyambungkan ke sebuah indeks Exercise 6: Menghapus sebuah indeks Exercise 7: Ekosistem Pinecone Exercise 8: Pemasukan vektor Exercise 9: Memeriksa dimensi Exercise 10: Mengimpor vektor beserta metadata

Praktik langsung dengan Pinecone di Python, di mana kita mengeksplorasi sisi praktis penggunaan Pinecone untuk mengelola indeks, menambahkan vektor beserta metadata, mencari dan mengambil vektor, serta melakukan pembaruan atau penghapusan. Kuasai fungsi-fungsi utama dan konsep penting untuk mengelola data dengan lancar di database vektor Pinecone.

Exercise 1: Mengambil vektor Exercise 2: Querying vs. fetching Exercise 3: Mengambil vektor Exercise 4: Melakukan kueri vektor Exercise 5: Mengembalikan vektor yang paling mirip Exercise 6: Mengubah metrik jarak Exercise 7: Penyaringan metadata Exercise 8: Memfilter kueri Exercise 9: Beberapa filter metadata Exercise 10: Memperbarui dan menghapus vektor Exercise 11: Memperbarui nilai vektor Exercise 12: Memperbarui metadata vektor Exercise 13: Menghapus vektor

Pada bab ini, Anda akan mendalami pengoptimalan kinerja indeks Pinecone, memanfaatkan namespace multi-tenant untuk menekan biaya, membangun mesin pencari semantik, dan membuat sistem tanya jawab berbasis retrieval (retrieval-augmented) menggunakan Pinecone dengan OpenAI API. Melalui pelajaran ini, Anda akan memperoleh keterampilan praktis dalam penalaan kinerja, pencarian semantik, dan tanya jawab berbasis retrieval, sehingga mampu menerapkan Pinecone secara efektif dalam aplikasi AI dunia nyata.

Exercise 1: Mengelompokkan upsert Exercise 2: Mendefinisikan fungsi untuk pemecahan ke dalam potongan Exercise 3: Melakukan upsert bertumpuk dalam potongan (chunks)Exercise 4: Batch upsert secara paralel Exercise 5: Multitenancy dan namespace Exercise 6: Namespace Exercise 7: Melakukan kueri pada namespace Exercise 8: Pencarian semantik dengan Pinecone Exercise 9: Membuat dan mengonfigurasi indeks Pinecone Exercise 10: Upsert vektor untuk pencarian semantik Exercise 11: Melakukan kueri vektor untuk pencarian semantik Exercise 12: Chatbot RAG dengan Pinecone dan OpenAI Exercise 13: Meng-upsert transkrip YouTube Exercise 14: Membangun fungsi retrieval

Latihan Saat Ini

Exercise 15: Fungsi RAG untuk menjawab pertanyaan Exercise 16: Selamat!