Criando uma função de recuperação
Um processo importante no fluxo de trabalho da Geração Aumentada por Recuperação (RAG) é pegar os dados do banco de dados. Neste exercício, você vai criar uma função personalizada chamada “ retrieve() ” que vai fazer esse processo importante no exercício final do curso.
Este exercício faz parte do curso
Bancos de dados vetoriais para incorporações com Pinecone
Instruções do exercício
- Inicialize o cliente Pinecone com sua chave API (o cliente OpenAI está disponível em
client). - Defina a função
retrieveque recebe quatro parâmetros:query,top_k,namespaceeemb_model. - Incorpore a entrada
queryusando o argumentoemb_model. - Pega os vetores parecidos com
top_kequery_embcom metadados, usando onamespaceque você passou pra função como argumento.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')
# Define a retrieve function that takes four arguments: query, top_k, namespace, and emb_model
def retrieve(query, top_k, namespace, emb_model):
# Encode the input query using OpenAI
query_response = ____(
input=____,
model=____
)
query_emb = query_response.data[0].embedding
# Query the index using the query_emb
docs = index.query(vector=____, top_k=____, namespace=____, include_metadata=True)
retrieved_docs = []
sources = []
for doc in docs['matches']:
retrieved_docs.append(doc['metadata']['text'])
sources.append((doc['metadata']['title'], doc['metadata']['url']))
return retrieved_docs, sources
documents, sources = retrieve(
query="How to build next-level Q&A with OpenAI",
top_k=3,
namespace='youtube_rag_dataset',
emb_model="text-embedding-3-small"
)
print(documents)
print(sources)