Meng-upsert transkrip YouTube

Dalam latihan berikut, Anda akan membuat chatbot yang dapat menjawab pertanyaan tentang video YouTube dengan memasukkan transkrip video dan metadata tambahan ke dalam indeks 'pinecone-datacamp'.

Sebagai awal, Anda akan menyiapkan data dari berkas youtube_rag_data.csv dan meng-upsert vektor beserta seluruh metadatanya ke dalam indeks 'pinecone-datacamp'. Data disediakan dalam DataFrame youtube_df.

Berikut contoh transkrip dari DataFrame youtube_df:

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

Latihan ini merupakan bagian dari kursus

Database Vektor untuk Embeddings dengan Pinecone

Lihat Kursus

Instruksi latihan

Inisialisasi klien Pinecone dengan kunci API Anda (klien OpenAI tersedia sebagai client).
Ekstrak metadata 'id', 'text', 'title', 'url', dan 'published' dari setiap row.
Enkode texts menggunakan 'text-embedding-3-small' dari OpenAI.
Upsert vektor dan metadata ke namespace bernama 'youtube_rag_dataset'.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(youtube_df, len(youtube_df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____'],
      "url": row['____'],
      "published": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="text-embedding-3-small")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace='____')
    
print(index.describe_index_stats())

Edit dan Jalankan Kode

Database Vektor untuk Embeddings dengan Pinecone

SkillTag.level.intermediateSkillTag.label

4.8+

1825 reviews