1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to Embeddings with the OpenAI API

Connected

cvičení

Odhad nákladů na embedding pomocí tiktoken

Teď, když máme vytvořenou databázi a kolekci pro ukládání filmů a seriálů z Netflixu, můžeme začít s embeddingem dat.

Před zpracováním velkého datasetu je důležité odhadnout náklady, abychom nepřekročili rozpočet. Protože OpenAI modely se účtují podle počtu vstupních tokenů, použijeme knihovnu tiktoken od OpenAI k jejich spočítání a převodu na cenu v dolarech.

Máš k dispozici proměnnou documents — seznam se všemi daty určenými k embeddingu. Projdeš celý seznam, zakóduješ každý dokument a spočítáš celkový počet tokenů. Nakonec pomocí ceníku modelu převedeš výsledek na konkrétní náklady.

Pokyny

100 XP
  • Načti enkodér pro model text-embedding-3-small.
  • Zakóduj každý text v documents a sečti výsledky, abys získal/a celkový počet tokenů v datasetu — total_tokens.
  • Vypiš celkový počet tokenů a odpovídající náklady s využitím hodnoty cost_per_1k_tokens, která je pro tebe předem definovaná.