1. Learn
  2. /
  3. कोर्स
  4. /
  5. Pinecone के साथ Embeddings के लिए Vector Databases

Connected

अभ्यास

YouTube ट्रांसक्रिप्ट्स अपसर्ट करना

आने वाले अभ्यासों में, आप एक चैटबॉट बनाएँगे जो YouTube वीडियो के बारे में सवालों के जवाब दे सकेगा. इसके लिए आप वीडियो ट्रांसक्रिप्ट्स और अतिरिक्त मेटाडेटा को अपने 'pinecone-datacamp' इंडेक्स में इनजेस्ट करेंगे.

शुरू करने के लिए, आप youtube_rag_data.csv फ़ाइल से डेटा तैयार करेंगे और सभी मेटाडेटा के साथ वेक्टर्स को 'pinecone-datacamp' इंडेक्स में अपसर्ट करेंगे. डेटा DataFrame youtube_df में दिया गया है.

यहाँ youtube_df DataFrame से एक उदाहरण ट्रांसक्रिप्ट दिया गया है:

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

निर्देश

100 XP
  • अपने API key के साथ Pinecone क्लाइंट इनिशियलाइज़ करें (OpenAI क्लाइंट client के रूप में उपलब्ध है).
  • प्रत्येक row से 'id', 'text', 'title', 'url', और 'published' मेटाडेटा निकालें.
  • OpenAI के 'text-embedding-3-small' का उपयोग करके texts को एन्कोड करें.
  • वेक्टर्स और मेटाडेटा को 'youtube_rag_dataset' नाम के namespace में अपसर्ट करें.