Estimer les coûts d’embedding avec tiktoken
Maintenant que nous avons créé une base de données et une collection pour stocker les films et séries Netflix, nous pouvons commencer à générer des embeddings.
Avant de traiter un jeu de données volumineux, il est important d’estimer le coût pour ne pas dépasser votre budget. Comme les modèles OpenAI sont facturés au nombre de tokens en entrée, nous allons utiliser la bibliothèque tiktoken d’OpenAI pour compter les tokens et les convertir en un coût en dollars.
Vous disposez de documents, une liste contenant toutes les données à convertir en embeddings. Vous allez parcourir la liste, encoder chaque document et compter le nombre total de tokens. Enfin, vous utiliserez la tarification du modèle pour convertir ce total en un coût.
Cet exercice fait partie du cours
Introduction aux embeddings avec l’API OpenAI
Instructions
- Chargez l’encodeur pour le modèle
text-embedding-3-small. - Encodez chaque texte dans
documents, puis faites la somme pour obtenir le nombre total de tokens du jeu de données,total_tokens. - Affichez le nombre total de tokens et le coût correspondant à l’aide de
cost_per_1k_tokensdéfini pour vous.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the encoder for the OpenAI text-embedding-3-small model
enc = tiktoken.encoding_for_model("____")
# Encode each text in documents and calculate the total tokens
total_tokens = ____(____(____) for ____ in documents)
cost_per_1k_tokens = 0.00002
# Display number of tokens and cost
print('Total tokens:', ____)
print('Cost:', ____)