ComenzarEmpieza gratis

Estimación de los costes de incrustación con tiktoken

Ahora que hemos creado una base de datos y una colección para almacenar las películas de Netflix y los programas de TV, podemos empezar a incrustar datos.

Antes de incrustar un gran conjunto de datos, es importante hacer una estimación de costes para asegurarte de que no te pasas de las limitaciones presupuestarias. Como los modelos de OpenAI se cotizan por número de tokens introducidos, utilizaremos la biblioteca tiktoken de OpenAI para contar el número de tokens y convertirlos en coste en dólares.

Se te ha proporcionado documents, que es una lista que contiene todos los datos a incrustar. Iterarás sobre la lista, codificarás cada documento y contarás el número total de tokens. Por último, utilizarás la tarificación del modelo para convertirlo en un coste.

Este ejercicio forma parte del curso

Introducción a las incrustaciones con la OpenAI API

Ver curso

Instrucciones de ejercicio

  • Carga el codificador para el modelo text-embedding-3-small.
  • Codifica cada texto en documents, y suma el resultado para hallar el número total de tokens del conjunto de datos, total_tokens.
  • Imprime el número total de fichas y el coste de esas fichas utilizando el modelo cost_per_1k_tokens definido por ti.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Load the encoder for the OpenAI text-embedding-3-small model
enc = tiktoken.encoding_for_model("____")

# Encode each text in documents and calculate the total tokens
total_tokens = ____(____(____) for ____ in documents)

cost_per_1k_tokens = 0.00002

# Display number of tokens and cost
print('Total tokens:', ____)
print('Cost:', ____)
Editar y ejecutar código