1. Nauka
  2. /
  3. Kursy
  4. /
  5. OpenAI API로 시작하는 임베딩 Introduction

Connected

ćwiczenie

tiktoken으로 임베딩 비용 추정하기

이제 Netflix 영화와 TV 프로그램을 저장할 데이터베이스와 컬렉션을 만들었으니, 데이터를 임베딩해 보겠습니다.

큰 데이터셋을 임베딩하기 전에, 예산을 초과하지 않도록 비용을 미리 추정하는 것이 중요해요. OpenAI 모델은 입력된 토큰 수 기준으로 가격이 정해지므로, OpenAI의 tiktoken 라이브러리를 사용해 토큰 수를 계산하고 이를 달러 비용으로 변환하겠습니다.

documents가 제공되었으며, 임베딩할 모든 데이터를 담은 리스트입니다. 이 리스트를 순회하면서 각 문서를 인코딩해 전체 토큰 수를 계산하세요. 마지막으로 모델의 가격 정보를 사용해 비용으로 변환합니다.

Instrukcje

100 XP
  • text-embedding-3-small 모델용 인코더를 로드하세요.
  • documents의 각 텍스트를 인코딩하고, 결과를 합산해 데이터셋의 전체 토큰 수 total_tokens를 구하세요.
  • 모델에 대해 미리 정의된 cost_per_1k_tokens를 사용해 전체 토큰 수와 해당 토큰의 비용을 출력하세요.