1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Vektorové databáze pro embeddingy s Pinecone

Connected

Cvičení

Upsert přepisů z YouTube

V následujících cvičeních vytvoříš chatbota, který dokáže odpovídat na otázky o YouTube videích — a to tak, že přijme přepisy videí a další metadata do indexu 'pinecone-datacamp'.

Nejprve připravíš data ze souboru youtube_rag_data.csv a vložíš vektory spolu se všemi jejich metadaty do indexu 'pinecone-datacamp'. Data jsou k dispozici v DataFrame youtube_df.

Tady je ukázkový přepis z DataFrame youtube_df:

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

Pokyny

100 XP
  • Inicializuj Pinecone klienta pomocí svého API klíče (OpenAI klient je dostupný jako client).
  • Z každého řádku row extrahuj metadata 'id', 'text', 'title', 'url' a 'published'.
  • Zakóduj texts pomocí modelu 'text-embedding-3-small' od OpenAI.
  • Vlož vektory a metadata do namespace s názvem 'youtube_rag_dataset'.