1. Learn
  2. /
  3. Курси
  4. /
  5. Vector Databases for Embeddings with Pinecone

Connected

вправа

Upsert розшифровок YouTube

У цій серії вправ ви створите чатбота, який відповідатиме на запитання про відео на YouTube, завантажуючи розшифровки відео та додаткові метадані до вашого індексу 'pinecone-datacamp'.

Спочатку підготуйте дані з файлу youtube_rag_data.csv і виконайте upsert векторів разом з усіма їхніми метаданими до індексу 'pinecone-datacamp'. Дані надані в датафреймі youtube_df.

Ось приклад розшифровки з датафрейму youtube_df:

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

Інструкції

100 XP
  • Ініціалізуйте клієнт Pinecone за допомогою вашого API-ключа (клієнт OpenAI доступний як client).
  • Витягніть метадані 'id', 'text', 'title', 'url' і 'published' з кожного row.
  • Закодуйте texts, використовуючи модель 'text-embedding-3-small' від OpenAI.
  • Виконайте upsert векторів і метаданих у простір імен 'youtube_rag_dataset'.