1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 OpenAI API 的 Embeddings 入门

Connected

道练习

使用 tiktoken 估算嵌入向量成本

现在我们已经创建了用于存储 Netflix 电影和剧集的数据库和集合,可以开始进行嵌入向量了。

在对大型数据集进行嵌入之前,先估算成本很重要,以确保不会超出预算。由于 OpenAI 模型的计费按输入的 token 数计算,我们将使用 OpenAI 的 tiktoken 库来统计 token 数量,并将其换算成美元成本。

您已获得 documents,它是包含所有待嵌入数据的列表。您将遍历该列表,对每个文档进行编码,并统计 token 总数。最后,您将根据模型的定价将其换算为成本。

说明

100 XP
  • 加载 text-embedding-3-small 模型的编码器。
  • 对 documents 中的每段文本进行编码,并将结果求和,得到数据集的 token 总数 total_tokens。
  • 使用为您定义的模型 cost_per_1k_tokens,打印 token 总数以及这些 token 的成本。