Estimativa de custos de incorporação com tiktoken

Agora que criamos um banco de dados e uma coleção para armazenar os filmes da Netflix e os programas do TV, podemos começar a incorporar dados.

Antes de incorporar um grande conjunto de dados, é importante fazer uma estimativa de custo para garantir que você não ultrapasse as restrições orçamentárias. Como os modelos da OpenAI são precificados pelo número de tokens inseridos, usaremos a biblioteca tiktoken da OpenAI para contar o número de tokens e convertê-los em um custo em dólares.

Você recebeu o endereço documents, que é uma lista com todos os dados a serem incorporados. Você iterará a lista, codificará cada documento e contará o número total de tokens. Por fim, você usará o preço do modelo para converter isso em um custo.

Este exercicio faz parte do curso

Introdução aos embeddings com o OpenAI API

Ver curso

Instruções do exercicio

Carregue o codificador para o modelo text-embedding-3-small.
Codifique cada texto em documents e some o resultado para encontrar o número total de tokens no conjunto de dados, total_tokens.
Imprima o número total de tokens e o custo desses tokens usando o cost_per_1k_tokens do modelo definido para você.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Load the encoder for the OpenAI text-embedding-3-small model
enc = tiktoken.encoding_for_model("____")

# Encode each text in documents and calculate the total tokens
total_tokens = ____(____(____) for ____ in documents)

cost_per_1k_tokens = 0.00002

# Display number of tokens and cost
print('Total tokens:', ____)
print('Cost:', ____)

Editar e Executar Código