Insertion avec mise à jour des transcriptions YouTube

Dans les exercices suivants, vous allez créer un robot conversationnel capable de répondre à des questions sur des vidéos YouTube en ingérant les transcriptions et des métadonnées supplémentaires dans votre index 'pinecone-datacamp'.

Pour commencer, vous préparerez les données du fichier youtube_rag_data.csv et vous insérerez les vecteurs avec toutes leurs métadonnées dans l'index 'pinecone-datacamp'. Les données sont fournies dans le DataFrame youtube_df.

Voici un exemple de transcription provenant du DataFrame youtube_df :

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

Initialisez le client Pinecone avec votre clé d'API (le client OpenAI est disponible sous client).
Extrayez les métadonnées 'id', 'text', 'title', 'url' et 'published' de chaque row.
Encodez texts à l'aide de 'text-embedding-3-small' d'OpenAI.
Insérez ou mettez à jour (upsert) les vecteurs et les métadonnées dans un espace de noms appelé 'youtube_rag_dataset'.

Exercice

Insertion avec mise à jour des transcriptions YouTube

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercice

Instructions

Exercice