YouTube-Transkripte hochladen
In den folgenden Übungen erstellst du einen Chatbot, der Fragen zu YouTube-Videos beantworten kann, indem er Videotranskripte und zusätzliche Metadaten in deinen Index „ 'pinecone-datacamp' “ einliest.
Zuerst holst du die Daten aus der Datei youtube_rag_data.csv Datei vor und fügst die Vektoren mit allen Metadaten in den Index „ 'pinecone-datacamp' “ ein. Die Daten sind im DataFrame „ youtube_df “ verfügbar.
Hier ist ein Beispieltranskript aus dem DataFrame „ youtube_df “:
id:
35Pdoyi6ZoQ-t0.0
title:
Training and Testing an Italian BERT - Transformers From Scratch #4
text:
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch
mini series. So if you haven't been following along, we've essentially covered what
you can see on the screen. So we got some data. We built a tokenizer with it...
url:
https://youtu.be/35Pdoyi6ZoQ
published:
01-01-2024
Diese Übung ist Teil des Kurses
Vektordatenbanken für Einbettungen mit Pinecone
Anleitung zur Übung
- Starte den Pinecone-Client mit deinem API-Schlüssel (der OpenAI-Client ist unter
clientverfügbar). - Extrahier die Metadaten „
'id'“, „'text'“, „'title'“, „'url'“ und „'published'“ aus jeder „row“-Datei. textsmit „'text-embedding-3-small'“ von OpenAI verschlüsseln.- Füge die Vektoren und Metadaten in einen Namespace namens „
'youtube_rag_dataset'“ ein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')
batch_limit = 100
for batch in np.array_split(youtube_df, len(youtube_df) / batch_limit):
# Extract the metadata from each row
metadatas = [{
"text_id": row['____'],
"text": row['____'],
"title": row['____'],
"url": row['____'],
"published": row['____']} for _, row in batch.iterrows()]
texts = batch['text'].tolist()
ids = [str(uuid4()) for _ in range(len(texts))]
# Encode texts using OpenAI
response = ____(input=____, model="text-embedding-3-small")
embeds = [np.array(x.embedding) for x in response.data]
# Upsert vectors to the correct namespace
____(vectors=____(ids, embeds, metadatas), namespace='____')
print(index.describe_index_stats())