CommencerCommencer gratuitement

Estimation des coûts d'intégration avec tiktoken

Maintenant que nous avons créé une base de données et une collection pour stocker les films Netflix et les émissions TV, nous pouvons commencer à intégrer des données.

Avant d'intégrer un grand ensemble de données, il est important de procéder à une estimation des coûts afin de s'assurer que vous ne dépasserez pas les limites de votre budget. Les modèles OpenAI étant tarifés en fonction du nombre de jetons saisis, nous utiliserons la bibliothèque tiktoken d'OpenAI pour compter le nombre de jetons et le convertir en coût monétaire.

Vous avez reçu documents, qui est une liste contenant toutes les données à intégrer. Vous allez itérer sur la liste, encoder chaque document et compter le nombre total de tokens. Enfin, vous utiliserez la tarification du modèle pour convertir ces données en coûts.

Cet exercice fait partie du cours

Introduction à l'intégration avec l'API OpenAI

Afficher le cours

Instructions

  • Chargez le codeur pour le modèle text-embedding-3-small.
  • Encodez chaque texte dans documents, et additionnez les résultats pour obtenir le nombre total de tokens dans l'ensemble de données, total_tokens.
  • Imprimez le nombre total de jetons et le coût de ces jetons en utilisant le modèle cost_per_1k_tokens défini pour vous.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the encoder for the OpenAI text-embedding-3-small model
enc = tiktoken.encoding_for_model("____")

# Encode each text in documents and calculate the total tokens
total_tokens = ____(____(____) for ____ in documents)

cost_per_1k_tokens = 0.00002

# Display number of tokens and cost
print('Total tokens:', ____)
print('Cost:', ____)
Modifier et exécuter le code