Estimativa de custos de incorporação com tiktoken
Agora que criamos um banco de dados e uma coleção para armazenar os filmes da Netflix e os programas do TV, podemos começar a incorporar dados.
Antes de incorporar um grande conjunto de dados, é importante fazer uma estimativa de custo para garantir que você não ultrapasse as restrições orçamentárias. Como os modelos da OpenAI são precificados pelo número de tokens inseridos, usaremos a biblioteca tiktoken
da OpenAI para contar o número de tokens e convertê-los em um custo em dólares.
Você recebeu o endereço documents
, que é uma lista com todos os dados a serem incorporados. Você iterará a lista, codificará cada documento e contará o número total de tokens. Por fim, você usará o preço do modelo para converter isso em um custo.
Este exercício faz parte do curso
Introdução aos embeddings com o OpenAI API
Instruções do exercício
- Carregue o codificador para o modelo
text-embedding-3-small
. - Codifique cada texto em
documents
e some o resultado para encontrar o número total de tokens no conjunto de dados,total_tokens
. - Imprima o número total de tokens e o custo desses tokens usando o
cost_per_1k_tokens
do modelo definido para você.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the encoder for the OpenAI text-embedding-3-small model
enc = tiktoken.encoding_for_model("____")
# Encode each text in documents and calculate the total tokens
total_tokens = ____(____(____) for ____ in documents)
cost_per_1k_tokens = 0.00002
# Display number of tokens and cost
print('Total tokens:', ____)
print('Cost:', ____)