Upsert dei vettori per la semantic search

È il momento di creare gli embedding di alcuni testi e fare l’upsert dei vettori e dei metadati nel tuo indice 'pinecone-datacamp'! Ti è stato fornito un insieme di dati chiamato squad_dataset.csv, e un campione di 200 righe è stato caricato nel DataFrame df.

In questo esercizio, per interagire con l'API di OpenAI e usare il loro modello di embedding, non devi creare né usare una tua API key. Un client OpenAI valido è già stato creato per te e assegnato alla variabile client.

Il tuo compito è creare gli embedding del testo usando l'API di OpenAI e fare l’upsert degli embedding e dei metadati nell’indice Pinecone, all’interno del namespace squad_dataset.

Questo esercizio fa parte del corso

Database vettoriali per Embeddings con Pinecone

Visualizza corso

Istruzioni dell'esercizio

Inizializza il client Pinecone con la tua API key (il client OpenAI è già disponibile come client).
Estrai i metadati 'id', 'text' e 'title' da ogni row del batch.
Codifica i texts usando 'text-embedding-3-small' di OpenAI con dimensionalità 1536.
Esegui l’upsert dei vettori e dei metadati in un namespace chiamato 'squad_dataset'.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(df, len(df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="____")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace=____)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Database vettoriali per Embeddings con Pinecone

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Esplora il funzionamento del database vettoriale di Pinecone, dai pod e dagli indici al confronto con altri database. Impara a distinguere i tipi di pod, ottenere le chiavi API e inizializzare la connessione a Pinecone con Python. Infine, imparerai a creare indici Pinecone, esplorando diversi parametri come dimensionalità, metriche di distanza, tipi di pod e altro ancora.

Exercise 1: Introduzione agli indici Pinecone Exercise 2: Creare un client Pinecone Exercise 3: Il tuo primo indice Pinecone Exercise 4: Gestire gli indici Exercise 5: Connessione a un indice Exercise 6: Eliminare un indice Exercise 7: L'ecosistema di Pinecone Exercise 8: Ingestione di vettori Exercise 9: Verifica della dimensionalità Exercise 10: Inserimento di vettori con metadati

Metti le mani su Pinecone in Python: esploriamo l’uso pratico di Pinecone per gestire indici, aggiungere vettori con metadati, cercare e recuperare vettori, nonché effettuare aggiornamenti o eliminazioni. Acquisisci una solida comprensione delle funzioni e delle idee chiave per gestire senza intoppi i dati nel database vettoriale Pinecone.

Exercise 1: Recupero dei vettori Exercise 2: Querying vs. fetching Exercise 3: Recuperare vettori Exercise 4: Interrogare i vettori Exercise 5: Restituire i vettori più simili Exercise 6: Modificare le metriche di distanza Exercise 7: Filtraggio dei metadati Exercise 8: Query con filtro Exercise 9: Filtri multipli sulla metadata Exercise 10: Aggiornare ed eliminare vettori Exercise 11: Aggiornare i valori di un vettore Exercise 12: Aggiornare i metadati dei vettori Exercise 13: Eliminare vettori

In questo capitolo approfondirai l’ottimizzazione delle prestazioni degli indici Pinecone, l’uso di namespace multi-tenant per ridurre i costi, la costruzione di motori di ricerca semantici e la creazione di sistemi di question answering con retrieval augmentation utilizzando Pinecone con l’API di OpenAI. Attraverso queste lezioni, acquisirai competenze pratiche in tuning delle prestazioni, ricerca semantica e question answering con retrieval augmentation, così da applicare Pinecone in modo efficace in scenari reali di AI.

Exercise 1: Raggruppare gli upsert Exercise 2: Definire una funzione per suddividere in blocchi Exercise 3: Raggruppare gli upsert in chunk Exercise 4: Eseguire upsert in parallelo a batch Exercise 5: Multitenancy e namespace Exercise 6: Namespace Exercise 7: Interrogare i namespace Exercise 8: Ricerca semantica con Pinecone Exercise 9: Creare e configurare un indice Pinecone Exercise 10: Upsert dei vettori per la semantic search

Esercizio attuale

Exercise 11: Interrogare vettori per la ricerca semantica Exercise 12: Chatbot RAG con Pinecone e OpenAI Exercise 13: Upsert dei transcript di YouTube Exercise 14: Creare una funzione di retrieval Exercise 15: Funzione di question answering RAG Exercise 16: Congratulazioni!