Upsert vektor untuk pencarian semantik

Saatnya membuat embedding dari data teks dan melakukan upsert vektor serta metadata ke indeks 'pinecone-datacamp' Anda! Anda telah diberikan himpunan data bernama squad_dataset.csv, dan sampel 200 baris telah dimuat ke dalam DataFrame df.

Dalam latihan ini, untuk berinteraksi dengan OpenAI API menggunakan model embedding mereka, Anda tidak perlu membuat dan menggunakan kunci API milik Anda sendiri. Klien OpenAI yang valid telah dibuat untuk Anda dan ditetapkan ke variabel client.

Tugas Anda adalah membuat embedding teks menggunakan API OpenAI dan melakukan upsert embedding beserta metadata ke indeks Pinecone di bawah namespace squad_dataset.

Latihan ini merupakan bagian dari kursus

Database Vektor untuk Embeddings dengan Pinecone

Instruksi latihan

Inisialisasi klien Pinecone dengan kunci API Anda (klien OpenAI sudah tersedia sebagai client).
Ekstrak metadata 'id', 'text', dan 'title' dari setiap row dalam batch.
Encode texts menggunakan 'text-embedding-3-small' dari OpenAI dengan dimensi 1536.
Lakukan upsert vektor dan metadata ke namespace bernama 'squad_dataset'.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(df, len(df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="____")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace=____)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Database Vektor untuk Embeddings dengan Pinecone

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Jelajahi mekanisme di balik database vektor Pinecone, mulai dari pod dan indeks hingga perbandingan dengan database lain. Pelajari membedakan jenis pod, memperoleh kunci API, dan menginisialisasi koneksi Pinecone menggunakan Python. Terakhir, Anda akan mempelajari cara membuat indeks Pinecone, mengeksplorasi berbagai parameter seperti dimensi, metrik jarak, jenis pod, dan lainnya.

Exercise 1: Pengantar indeks Pinecone Exercise 2: Membuat klien Pinecone Exercise 3: Indeks Pinecone pertama Anda Exercise 4: Mengelola indeks Exercise 5: Menyambungkan ke sebuah indeks Exercise 6: Menghapus sebuah indeks Exercise 7: Ekosistem Pinecone Exercise 8: Pemasukan vektor Exercise 9: Memeriksa dimensi Exercise 10: Mengimpor vektor beserta metadata

Praktik langsung dengan Pinecone di Python, di mana kita mengeksplorasi sisi praktis penggunaan Pinecone untuk mengelola indeks, menambahkan vektor beserta metadata, mencari dan mengambil vektor, serta melakukan pembaruan atau penghapusan. Kuasai fungsi-fungsi utama dan konsep penting untuk mengelola data dengan lancar di database vektor Pinecone.

Exercise 1: Mengambil vektor Exercise 2: Querying vs. fetching Exercise 3: Mengambil vektor Exercise 4: Melakukan kueri vektor Exercise 5: Mengembalikan vektor yang paling mirip Exercise 6: Mengubah metrik jarak Exercise 7: Penyaringan metadata Exercise 8: Memfilter kueri Exercise 9: Beberapa filter metadata Exercise 10: Memperbarui dan menghapus vektor Exercise 11: Memperbarui nilai vektor Exercise 12: Memperbarui metadata vektor Exercise 13: Menghapus vektor

Pada bab ini, Anda akan mendalami pengoptimalan kinerja indeks Pinecone, memanfaatkan namespace multi-tenant untuk menekan biaya, membangun mesin pencari semantik, dan membuat sistem tanya jawab berbasis retrieval (retrieval-augmented) menggunakan Pinecone dengan OpenAI API. Melalui pelajaran ini, Anda akan memperoleh keterampilan praktis dalam penalaan kinerja, pencarian semantik, dan tanya jawab berbasis retrieval, sehingga mampu menerapkan Pinecone secara efektif dalam aplikasi AI dunia nyata.

Exercise 1: Mengelompokkan upsert Exercise 2: Mendefinisikan fungsi untuk pemecahan ke dalam potongan Exercise 3: Melakukan upsert bertumpuk dalam potongan (chunks)Exercise 4: Batch upsert secara paralel Exercise 5: Multitenancy dan namespace Exercise 6: Namespace Exercise 7: Melakukan kueri pada namespace Exercise 8: Pencarian semantik dengan Pinecone Exercise 9: Membuat dan mengonfigurasi indeks Pinecone Exercise 10: Upsert vektor untuk pencarian semantik

Latihan Saat Ini

Exercise 11: Melakukan kueri vektor untuk pencarian semantik Exercise 12: Chatbot RAG dengan Pinecone dan OpenAI Exercise 13: Meng-upsert transkrip YouTube Exercise 14: Membangun fungsi retrieval Exercise 15: Fungsi RAG untuk menjawab pertanyaan Exercise 16: Selamat!