Inserção de vetores para pesquisa semântica

Hora de incorporar alguns dados de texto e inserir os vetores e metadados no seu índice do 'pinecone-datacamp'! Você recebeu um conjunto de dados chamado squad_dataset.csv, e uma amostra de 200 linhas foi carregada no DataFrame, df.

Neste exercício, pra interagir com a API OpenAI e usar o modelo de incorporação deles, você não precisa criar e usar sua própria chave API. Um cliente OpenAI válido foi criado para você e atribuído à variável client.

A sua tarefa é incorporar o texto usando a API da OpenAI e inserir as incorporações e os metadados no índice Pinecone sob o namespace squad_dataset.

Este exercicio faz parte do curso

Bancos de dados vetoriais para incorporações com Pinecone

Instruções do exercicio

Inicialize o cliente Pinecone com sua chave API (o cliente OpenAI já está disponível em client).
Pega os metadados 'id', 'text' e 'title' de cada row no lote.
Codifique texts usando 'text-embedding-3-small' da OpenAI com dimensionalidade 1536.
Insira os vetores e metadados em um namespace chamado 'squad_dataset'.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Initialize the Pinecone client
pc = Pinecone(api_key="____")
index = pc.Index('pinecone-datacamp')

batch_limit = 100

for batch in np.array_split(df, len(df) / batch_limit):
    # Extract the metadata from each row
    metadatas = [{
      "text_id": row['____'],
      "text": row['____'],
      "title": row['____']} for _, row in batch.iterrows()]
    texts = batch['text'].tolist()
    
    ids = [str(uuid4()) for _ in range(len(texts))]
    
    # Encode texts using OpenAI
    response = ____(input=____, model="____")
    embeds = [np.array(x.embedding) for x in response.data]
    
    # Upsert vectors to the correct namespace
    ____(vectors=____(ids, embeds, metadatas), namespace=____)

Editar e Executar Código

Este exercicio faz parte do curso

Bancos de dados vetoriais para incorporações com Pinecone

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Dá uma olhada em como funciona o banco de dados vetorial do Pinecone, desde os pods e índices até como ele se compara com outros bancos de dados. Aprenda a diferenciar tipos de pods, pegar chaves API e inicializar a conexão com o Pinecone usando Python. Por fim, você vai aprender a criar índices Pinecone, explorando diferentes parâmetros, como dimensionalidade, métricas de distância, tipos de pod e outros.

Exercise 1: Introdução aos índices Pinecone Exercise 2: Criando um cliente Pinecone Exercise 3: Seu primeiro índice Pinecone Exercise 4: Gerenciando índices Exercise 5: Conectando-se a um índice Exercise 6: Como apagar um índice Exercise 7: O ecossistema Pinecone Exercise 8: Ingestão de vetores Exercise 9: Verificando a dimensionalidade Exercise 10: Ingerindo vetores com metadados

Experimente o Pinecone em Python, onde a gente vai ver como é usar o Pinecone na prática pra gerenciar índices, adicionar vetores com metadados, procurar e recuperar vetores, além de fazer atualizações ou exclusões. Entenda bem as principais funções e ideias para lidar com os dados no banco de dados vetorial Pinecone.

Exercise 1: Recuperando vetores Exercise 2: Consultar vs. buscar Exercise 3: Buscando vetores Exercise 4: Consultando vetores Exercise 5: Retornando os vetores mais parecidos Exercise 6: Alterando as métricas de distância Exercise 7: Filtragem de metadados Exercise 8: Filtrando consultas Exercise 9: Vários filtros de metadados Exercise 10: Atualizando e apagando vetores Exercise 11: Atualizando valores vetoriais Exercise 12: Atualizando metadados vetoriais Exercise 13: Apagando vetores

Neste capítulo, os alunos vão aprender a otimizar o desempenho do índice Pinecone, usar namespaces multi-tenant pra reduzir custos, criar mecanismos de pesquisa semântica e sistemas de resposta a perguntas com recuperação aumentada usando o Pinecone com a API OpenAI. Com essas aulas, os alunos aprendem coisas práticas sobre como ajustar o desempenho, fazer buscas semânticas e responder perguntas com mais informações, o que os deixa prontos para usar o Pinecone de verdade em aplicações de IA no mundo real.

Exercise 1: Agrupamento de upserts Exercise 2: Definindo uma função para fragmentação Exercise 3: Agrupando upserts em pedaços Exercise 4: Agrupando upserts em paralelo Exercise 5: Multitenancy e namespaces Exercise 6: Espaços de nomes Exercise 7: Consultando namespaces Exercise 8: Pesquisa semântica com Pinecone Exercise 9: Criando e configurando um índice Pinecone Exercise 10: Inserção de vetores para pesquisa semântica

Exercicio Atual

Exercise 11: Consultando vetores para pesquisa semântica Exercise 12: Chatbot RAG com Pinecone e OpenAI Exercise 13: Inserir transcrições do YouTube Exercise 14: Criando uma função de recuperação Exercise 15: Função de resposta a perguntas RAG Exercise 16: Parabéns!