Anlamsal arama için vektörleri upsert etme

Biraz metin verisini gömme ve vektörleri/metaveriyi 'pinecone-datacamp' indeksine upsert etme zamanı! Sana squad_dataset.csv adlı bir veri kümesi verildi ve 200 satırlık bir örnek df adlı DataFrame'e yüklendi.

Bu egzersizde, OpenAI API'siyle etkileşime geçip gömme (embedding) modelini kullanmak için kendi API anahtarını oluşturup kullanmana gerek yok. Geçerli bir OpenAI istemcisi senin için oluşturuldu ve client değişkenine atandı.

Görevin, metni OpenAI'nin API'sini kullanarak gömmek ve gömme vektörleri ile metaveriyi squad_dataset ad alanı altında Pinecone indeksine upsert etmek.

Bu egzersiz, kursun bir parçasıdır

Pinecone ile Vektör Veritabanları ve Embeddings

Kursa Göz Atın

Egzersiz talimatları

Pinecone istemcisini kendi API anahtarınla başlat (OpenAI istemcisi client olarak zaten hazır).
Partideki her bir row içinden 'id', 'text' ve 'title' metaverisini çıkar.
texts listesini OpenAI'nin 'text-embedding-3-small' modeliyle, boyut 1536 olacak şekilde kodla.
Vektörleri ve metaverileri 'squad_dataset' adlı bir ad alanına upsert et.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(df, len(df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="____")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace=____)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Pinecone ile Vektör Veritabanları ve Embeddings

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Pinecone’un vektör veritabanının çalışma mantığını; pod’lardan ve index’lerden diğer veritabanlarıyla karşılaştırmaya kadar keşfet. Pod türlerini ayırt etmeyi, API anahtarlarını edinmeyi ve Python kullanarak Pinecone bağlantısını başlatmayı öğren. Son olarak, boyut sayısı, uzaklık metrikleri, pod türleri ve diğer parametreleri inceleyerek Pinecone index’leri oluşturmayı öğreneceksin.

Exercise 1: Pinecone dizinlerine giriş Exercise 2: Bir Pinecone istemcisi oluşturma Exercise 3: İlk Pinecone dizinin Exercise 4: Dizinleri yönetme Exercise 5: Bir index’e bağlanma Exercise 6: Bir indeksi silme Exercise 7: Pinecone ekosistemi Exercise 8: Vektör içe aktarımı Exercise 9: Boyutsallığı kontrol etme Exercise 10: Meta verilerle vektör içe aktarma

Python’da Pinecone ile uygulamalı çalış: index yönetimini, metadata ile birlikte vektör eklemeyi, vektörleri arayıp getirmeyi ve güncelleme ya da silme işlemlerini keşfet. Pinecone vektör veritabanında verileri sorunsuzca yönetebilmek için temel işlev ve kavramları sağlam bir şekilde kavra.

Exercise 1: Vektörleri getirme Exercise 2: Querying vs. Fetching Exercise 3: Vektörleri getirme Exercise 4: Vektörleri sorgulama Exercise 5: En benzer vektörleri döndürme Exercise 6: Uzaklık metriklerini değiştirmek Exercise 7: Metadata filtreleme Exercise 8: Sorguları filtreleme Exercise 9: Birden çok metadata filtresi Exercise 10: Vektörleri güncelleme ve silme Exercise 11: Vektör değerlerini güncelleme Exercise 12: Vektör üst verilerini güncelleme Exercise 13: Vektörleri silme

Bu bölümde, öğrenenler Pinecone index performansını optimize etmeye, maliyeti düşürmek için çok kiracılı ad alanlarından yararlanmaya, anlamsal arama motorları kurmaya ve Pinecone’u OpenAI API ile birlikte kullanarak retrieval-augmented soru cevaplama sistemleri oluşturmaya dalacak. Bu dersler sayesinde, öğrenenler performans ayarı, anlamsal arama ve retrieval-augmented soru cevaplama konularında pratik beceriler kazanarak Pinecone’u gerçek dünya AI uygulamalarında etkili biçimde kullanabilecek.

Exercise 1: Toplu upsert işlemleri Exercise 2: Parçalama (chunking) için bir fonksiyon tanımlama Exercise 3: Upsert işlemlerini parçalara bölerek toplu yapmak Exercise 4: Toplu upsert işlemlerini paralel çalıştırma Exercise 5: Çoklu kiracılık ve ad alanları Exercise 6: Namespaces Exercise 7: Ad alanlarını sorgulama Exercise 8: Pinecone ile anlamsal arama Exercise 9: Bir Pinecone indeksi oluşturma ve yapılandırma Exercise 10: Anlamsal arama için vektörleri upsert etme

Geçerli egzersiz

Exercise 11: Anlamsal arama için vektör sorgulama Exercise 12: Pinecone ve OpenAI ile RAG sohbet botu Exercise 13: YouTube transkriptlerini upsert etme Exercise 14: Bir getirici (retrieval) fonksiyonu oluşturma Exercise 15: RAG soru yanıtlama fonksiyonu Exercise 16: Tebrikler!