1. Learn
  2. /
  3. Cursuri
  4. /
  5. OpenAI API ではじめる Embeddings 入門

Connected

exercițiu

tiktoken を使った埋め込みコストの見積もり

Netflix の映画やTV番組を保存するためのデータベースとコレクションを作成できたので、データの埋め込みを始めましょう。

大規模なデータセットを埋め込む前に、予算を超えないようコスト見積もりを行うことが大切です。OpenAI のモデルは入力トークン数に基づいて料金が決まるため、OpenAI の tiktoken ライブラリを使ってトークン数を数え、ドル建てのコストに変換します。

すでに、埋め込むすべてのデータを含むリスト documents が用意されています。リストを反復処理して各ドキュメントをエンコードし、トークンの総数を数えます。最後に、モデルの料金を使ってコストに換算します。

Instrucțiuni

100 XP
  • text-embedding-3-small モデル用のエンコーダーを読み込みます。
  • documents の各テキストをエンコードし、その結果を合計してデータセット全体のトークン総数 total_tokens を求めます。
  • モデル用に定義済みの cost_per_1k_tokens を使って、トークン総数とそのコストを出力します。