Estimer les coûts d’embedding avec tiktoken

Maintenant que nous avons créé une base de données et une collection pour stocker les films et séries Netflix, nous pouvons commencer à générer des embeddings.

Avant de traiter un jeu de données volumineux, il est important d’estimer le coût pour ne pas dépasser votre budget. Comme les modèles OpenAI sont facturés au nombre de tokens en entrée, nous allons utiliser la bibliothèque tiktoken d’OpenAI pour compter les tokens et les convertir en un coût en dollars.

Vous disposez de documents, une liste contenant toutes les données à convertir en embeddings. Vous allez parcourir la liste, encoder chaque document et compter le nombre total de tokens. Enfin, vous utiliserez la tarification du modèle pour convertir ce total en un coût.

Cet exercice fait partie du cours

<cours>Introduction aux embeddings avec l’API OpenAI</cours>

Voir le cours

Instructions de l’exercice

Chargez l’encodeur pour le modèle text-embedding-3-small.
Encodez chaque texte dans documents, puis faites la somme pour obtenir le nombre total de tokens du jeu de données, total_tokens.
Affichez le nombre total de tokens et le coût correspondant à l’aide de cost_per_1k_tokens défini pour vous.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load the encoder for the OpenAI text-embedding-3-small model
enc = tiktoken.encoding_for_model("____")

# Encode each text in documents and calculate the total tokens
total_tokens = ____(____(____) for ____ in documents)

cost_per_1k_tokens = 0.00002

# Display number of tokens and cost
print('Total tokens:', ____)
print('Cost:', ____)

Modifier et exécuter le code