Inserción ascendente de vectores para la búsqueda semántica

¡Es hora de incrustar algunos datos de texto y actualizar los vectores y metadatos en tu índice « 'pinecone-datacamp' »! Se te ha proporcionado un conjunto de datos denominado squad_dataset.csvy se ha cargado una muestra de 200 filas en el DataFrame, df.

En este ejercicio, para interactuar con la API de OpenAI y utilizar su modelo de incrustación, no es necesario crear ni utilizar una clave API propia. Se ha creado un cliente OpenAI válido para ti y se ha asignado a la variable client.

Tu tarea consiste en incrustar el texto utilizando la API de OpenAI e insertar las incrustaciones y los metadatos en el índice de Pinecone bajo el espacio de nombres squad_dataset.

Este ejercicio forma parte del curso

Bases de datos vectoriales para incrustaciones con Pinecone

Instrucciones del ejercicio

Inicializa el cliente Pinecone con tu clave API (el cliente OpenAI ya está disponible en client).
Extrae los metadatos 'id', 'text' y 'title' de cada archivo row del lote.
Codifica texts utilizando 'text-embedding-3-small' de OpenAI con dimensionalidad 1536.
Inserta los vectores y los metadatos en un espacio de nombres llamado 'squad_dataset'.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(df, len(df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="____")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace=____)

Editar y ejecutar código

Este ejercicio forma parte del curso

Bases de datos vectoriales para incrustaciones con Pinecone

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

Explora la mecánica que hay detrás de la base de datos vectorial de Pinecone, desde los pods y los índices hasta su comparación con otras bases de datos. Aprende a diferenciar los tipos de pods, adquirir claves API e inicializar la conexión con Pinecone utilizando Python. Por último, aprenderás a crear índices Pinecone, explorando diferentes parámetros como la dimensionalidad, las métricas de distancia, los tipos de pods y otros.

Exercise 1: Introducción a los índices Pinecone Exercise 2: Creación de un cliente Pinecone Exercise 3: Tu primer índice Pinecone Exercise 4: Gestión de índices Exercise 5: Conexión a un índice Exercise 6: Eliminar un índice Exercise 7: El ecosistema Pinecone Exercise 8: Ingestión de vectores Exercise 9: Comprobación de la dimensionalidad Exercise 10: Ingestión de vectores con metadatos

Ponte manos a la obra con Pinecone en Python, donde exploramos el lado práctico del uso de Pinecone para gestionar índices, añadir vectores con metadatos, buscar y recuperar vectores, y realizar actualizaciones o eliminaciones. Obtén un conocimiento sólido de las funciones y conceptos clave para manejar con fluidez los datos en la base de datos vectorial Pinecone.

Exercise 1: Recuperación de vectores Exercise 2: Consultar frente a recuperar Exercise 3: Obtención de vectores Exercise 4: Consultar vectores Exercise 5: Devolver los vectores más similares Exercise 6: Cambiar las métricas de distancia Exercise 7: Filtrado de metadatos Exercise 8: Filtrar consultas Exercise 9: Múltiples filtros de metadatos Exercise 10: Actualización y eliminación de vectores Exercise 11: Actualización de valores vectoriales Exercise 12: Actualización de metadatos vectoriales Exercise 13: Eliminación de vectores

En este capítulo, los alumnos profundizan en la optimización del rendimiento del índice Pinecone, el aprovechamiento de los espacios de nombres multitenant para reducir costes, la creación de motores de búsqueda semántica y la creación de sistemas de respuesta a preguntas con recuperación aumentada utilizando Pinecone con la API de OpenAI. A través de estas lecciones, los alumnos adquieren habilidades prácticas en el ajuste del rendimiento, la búsqueda semántica y la respuesta a preguntas con recuperación ampliada, lo que les permite aplicar Pinecone de forma eficaz en aplicaciones de IA del mundo real.

Exercise 1: Agrupar actualizaciones Exercise 2: Definición de una función para fragmentar Exercise 3: Agrupar actualizaciones en bloques Exercise 4: Agrupar actualizaciones en paralelo Exercise 5: Multitenencia y espacios de nombres Exercise 6: Espacios de nombres Exercise 7: Consultar espacios de nombres Exercise 8: Búsqueda semántica con Pinecone Exercise 9: Creación y configuración de un índice Pinecone Exercise 10: Inserción ascendente de vectores para la búsqueda semántica

Ejercicio actual

Exercise 11: Consulta de vectores para la búsqueda semántica Exercise 12: Chatbot RAG con Pinecone y OpenAI Exercise 13: Actualización de transcripciones de YouTube Exercise 14: Creación de una función de recuperación Exercise 15: Función de respuesta a preguntas sobre RAG Exercise 16: ¡Enhorabuena!