YouTube transkriptlerini upsert etme

Bu ve sonraki egzersizlerde, video transkriptlerini ve ek metaveriyi 'pinecone-datacamp' indeksine alarak YouTube videoları hakkında soruları yanıtlayabilen bir sohbet botu oluşturacaksın.

Başlamak için, youtube_rag_data.csv dosyasındaki veriyi hazırlayacak ve tüm metaverileriyle birlikte vektörleri 'pinecone-datacamp' indeksine upsert edeceksin. Veri, youtube_df DataFrame'i olarak sağlanıyor.

İşte youtube_df DataFrame'inden örnek bir transkript:

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

Bu egzersiz, kursun bir parçasıdır

Pinecone ile Vektör Veritabanları ve Embeddings

Kursa Göz Atın

Egzersiz talimatları

Pinecone istemcisini API anahtarınla başlat (OpenAI istemcisi client olarak mevcut).
Her row içinden 'id', 'text', 'title', 'url' ve 'published' metaverilerini çıkar.
texts öğelerini OpenAI'nin 'text-embedding-3-small' modeliyle kodla.
Vektörleri ve metaverileri 'youtube_rag_dataset' adlı ad alanına upsert et.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(youtube_df, len(youtube_df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____'],
      "url": row['____'],
      "published": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="text-embedding-3-small")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace='____')
    
print(index.describe_index_stats())

Kodu Düzenle ve Çalıştır

Pinecone ile Vektör Veritabanları ve Embeddings

IntermediárioNível de habilidade

4.8+

1825 reviews