Creare una funzione di retrieval

Un passaggio chiave nel flusso di lavoro di Retrieval Augmented Generation (RAG) è il recupero dei dati dal database. In questo esercizio progetterai una funzione personalizzata chiamata retrieve() che eseguirà questo passaggio cruciale nell'esercizio finale del corso.

Questo esercizio fa parte del corso

Database vettoriali per Embeddings con Pinecone

Visualizza il corso

Istruzioni dell'esercizio

Inizializza il client Pinecone con la tua chiave API (il client OpenAI è disponibile come client).
Definisci la funzione retrieve che accetta quattro parametri: query, top_k, namespace ed emb_model.
Crea l'embedding della query in input usando l'argomento emb_model.
Recupera i top_k vettori più simili a query_emb con i metadati, specificando il namespace passato alla funzione come argomento.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

# Define a retrieve function that takes four arguments: query, top_k, namespace, and emb_model
def retrieve(query, top_k, namespace, emb_model):
    # Encode the input query using OpenAI
    query_response = ____(
        input=____,
        model=____
    )
    
    query_emb = query_response.data[0].embedding
    
    # Query the index using the query_emb
    docs = index.query(vector=____, top_k=____, namespace=____, include_metadata=True)
    
    retrieved_docs = []
    sources = []
    for doc in docs['matches']:
        retrieved_docs.append(doc['metadata']['text'])
        sources.append((doc['metadata']['title'], doc['metadata']['url']))
    
    return retrieved_docs, sources

documents, sources = retrieve(
  query="How to build next-level Q&A with OpenAI",
  top_k=3,
  namespace='youtube_rag_dataset',
  emb_model="text-embedding-3-small"
)
print(documents)
print(sources)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Database vettoriali per Embeddings con Pinecone

IntermediárioNível de habilidade

4.8+

Inizia il corso gratis

Explore the mechanics behind Pinecone's vector database, from pods and indexes to comparing it with other databases. Learn to differentiate pod types, acquire API keys, and initialise Pinecone connection using python. Finally, you’ll learn how to create Pinecone indexes, exploring different parameters such as dimensionality, distance metrics, pod types, and others.

Exercise 1: Introduction to Pinecone indexes Exercise 2: Creating a Pinecone client Exercise 3: Your first Pinecone index Exercise 4: Managing indexes Exercise 5: Connecting to an index Exercise 6: Deleting an index Exercise 7: The Pinecone ecosystem Exercise 8: Vector ingestion Exercise 9: Checking dimensionality Exercise 10: Ingesting vectors with metadata

Get hands-on with Pinecone in Python, where we explore the practical side of using Pinecone for managing indexes, adding vectors with metadata, searching and retrieving vectors, and making updates or deletions. Gain a solid grasp of the key functions and ideas to smoothly handle data in the Pinecone vector database.

Exercise 1: Retrieving vectors Exercise 2: Querying vs. fetching Exercise 3: Fetching vectors Exercise 4: Querying vectors Exercise 5: Returning the most similar vectors Exercise 6: Changing distance metrics Exercise 7: Metadata filtering Exercise 8: Filtering queries Exercise 9: Multiple metadata filters Exercise 10: Updating and deleting vectors Exercise 11: Updating vector values Exercise 12: Updating vector metadata Exercise 13: Deleting vectors

In this chapter, learners delve into optimizing Pinecone index performance, leveraging multi-tenant namespaces for cost reduction, building semantic search engines, and creating retrieval-augmented question answering systems using Pinecone with the OpenAI API. Through these lessons, learners gain practical skills in performance tuning, semantic search, and retrieval-augmented question answering, empowering them to apply Pinecone effectively in real-world AI applications.

Exercise 1: Raggruppare gli upsert Exercise 2: Definire una funzione per suddividere in blocchi Exercise 3: Raggruppare gli upsert in chunk Exercise 4: Eseguire upsert in parallelo a batch Exercise 5: Multitenancy e namespace Exercise 6: Namespace Exercise 7: Interrogare i namespace Exercise 8: Ricerca semantica con Pinecone Exercise 9: Creare e configurare un indice Pinecone Exercise 10: Upsert dei vettori per la semantic search Exercise 11: Interrogare vettori per la ricerca semantica Exercise 12: Chatbot RAG con Pinecone e OpenAI Exercise 13: Upsert dei transcript di YouTube Exercise 14: Creare una funzione di retrieval

Esercizio in corso

Exercise 15: Funzione di question answering RAG Exercise 16: Congratulazioni!