Actualización de transcripciones de YouTube

En los siguientes ejercicios, crearás un chatbot que puede responder preguntas sobre vídeos de YouTube mediante la ingesta de transcripciones de vídeos y metadatos adicionales en tu índice de 'pinecone-datacamp'.

Para empezar, prepararás los datos del archivo youtube_rag_data.csv archivo y actualizarás los vectores con todos sus metadatos en el índice 'pinecone-datacamp'. Los datos se proporcionan en el DataFrame youtube_df.

Aquí tienes un ejemplo de transcripción del DataFrame « youtube_df »:

id: 
35Pdoyi6ZoQ-t0.0

title:
Training and Testing an Italian BERT - Transformers From Scratch #4

text: 
Hi, welcome to the video. So this is the fourth video in a Transformers from Scratch 
mini series. So if you haven't been following along, we've essentially covered what 
you can see on the screen. So we got some data. We built a tokenizer with it...

url: 
https://youtu.be/35Pdoyi6ZoQ

published: 
01-01-2024

Este ejercicio forma parte del curso

Bases de datos vectoriales para incrustaciones con Pinecone

Ver curso

Instrucciones del ejercicio

Inicializa el cliente Pinecone con tu clave API (el cliente OpenAI está disponible en client).
Extraiga los metadatos 'id', 'text', 'title', 'url' y 'published' de cada archivo row.
Codifica texts utilizando 'text-embedding-3-small' de OpenAI.
Inserta los vectores y los metadatos en un espacio de nombres llamado 'youtube_rag_dataset'.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(youtube_df, len(youtube_df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____'],
      "url": row['____'],
      "published": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="text-embedding-3-small")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace='____')
    
print(index.describe_index_stats())

Editar y ejecutar código

Bases de datos vectoriales para incrustaciones con Pinecone

IntermedioNivel de habilidad

4.8+

1817 reviews