1. Apprendre
  2. /
  3. Cours
  4. /
  5. Introduction aux embeddings avec l'API d'OpenAI

Connected

Exercice

Estimer les coûts d'embedding avec tiktoken

Maintenant que nous avons créé une base de données et une collection pour stocker les films et séries télé de Netflix, nous pouvons commencer à générer des embeddings.

Avant de traiter un grand jeu de données, il est important d'estimer les coûts pour respecter votre budget. Comme les modèles d'OpenAI sont tarifés selon le nombre de jetons fournis en entrée, nous allons utiliser la bibliothèque tiktoken d'OpenAI pour compter le nombre de jetons et le convertir en coût en dollars.

On vous fournit documents, une liste qui contient toutes les données à intégrer. Vous allez parcourir la liste, encoder chaque document et compter le nombre total de jetons. Enfin, vous utiliserez la tarification du modèle pour convertir ce total en un coût.

Instructions

100 XP
  • Chargez l'encodeur pour le modèle text-embedding-3-small.
  • Encodez chaque texte dans documents et faites la somme pour obtenir le nombre total de jetons du jeu de données, total_tokens.
  • Affichez le nombre total de jetons et le coût correspondant en utilisant cost_per_1k_tokens défini pour vous par le modèle.