1. Apprendre
  2. /
  3. Cours
  4. /
  5. Bases de données vectorielles pour les embeddings avec Pinecone

Connected

Exercice

Insertion avec mise à jour des transcriptions YouTube

Dans les exercices suivants, vous allez créer un robot conversationnel capable de répondre à des questions sur des vidéos YouTube en ingérant les transcriptions et des métadonnées supplémentaires dans votre index 'pinecone-datacamp'.

Pour commencer, vous préparerez les données du fichier youtube_rag_data.csv et vous insérerez les vecteurs avec toutes leurs métadonnées dans l'index 'pinecone-datacamp'. Les données sont fournies dans le DataFrame youtube_df.

Voici un exemple de transcription provenant du DataFrame youtube_df :

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

Instructions

100 XP
  • Initialisez le client Pinecone avec votre clé d'API (le client OpenAI est disponible sous client).
  • Extrayez les métadonnées 'id', 'text', 'title', 'url' et 'published' de chaque row.
  • Encodez texts à l'aide de 'text-embedding-3-small' d'OpenAI.
  • Insérez ou mettez à jour (upsert) les vecteurs et les métadonnées dans un espace de noms appelé 'youtube_rag_dataset'.