BaşlayınÜcretsiz Başlayın

YouTube transkriptlerini upsert etme

Bu ve sonraki egzersizlerde, video transkriptlerini ve ek metaveriyi 'pinecone-datacamp' indeksine alarak YouTube videoları hakkında soruları yanıtlayabilen bir sohbet botu oluşturacaksın.

Başlamak için, youtube_rag_data.csv dosyasındaki veriyi hazırlayacak ve tüm metaverileriyle birlikte vektörleri 'pinecone-datacamp' indeksine upsert edeceksin. Veri, youtube_df DataFrame'i olarak sağlanıyor.

İşte youtube_df DataFrame'inden örnek bir transkript:

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

Bu egzersiz

Pinecone ile Vektör Veritabanları ve Embeddings

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Pinecone istemcisini API anahtarınla başlat (OpenAI istemcisi client olarak mevcut).
  • Her row içinden 'id', 'text', 'title', 'url' ve 'published' metaverilerini çıkar.
  • texts öğelerini OpenAI'nin 'text-embedding-3-small' modeliyle kodla.
  • Vektörleri ve metaverileri 'youtube_rag_dataset' adlı ad alanına upsert et.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(youtube_df, len(youtube_df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____'],
      "url": row['____'],
      "published": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="text-embedding-3-small")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace='____')
    
print(index.describe_index_stats())
Kodu Düzenle ve Çalıştır