Schätzung der Einbettungskosten mit Tiktoken
Nachdem wir nun eine Datenbank und eine Sammlung erstellt haben, in der wir die Netflix-Filme und TV -Sendungen speichern, können wir damit beginnen, Daten einzubetten.
Bevor du einen großen Datensatz einbettest, ist es wichtig, dass du eine Kostenschätzung vornimmst, um sicherzustellen, dass du dein Budget nicht überschreitest. Da OpenAI-Modelle nach der Anzahl der eingegebenen Token berechnet werden, verwenden wir die OpenAI-Bibliothek tiktoken
, um die Anzahl der Token zu zählen und sie in einen Dollarpreis umzurechnen.
Du hast documents
erhalten, eine Liste mit allen Daten, die du einbetten musst. Du durchläufst die Liste, kodierst jedes Dokument und zählst die Gesamtzahl der Token. Schließlich wendest du die Preise des Modells an, um sie in Kosten umzuwandeln.
Diese Übung ist Teil des Kurses
Einführung in Embeddings mit der OpenAI API
Anleitung zur Übung
- Lade den Encoder für das Modell
text-embedding-3-small
. - Kodiere jeden Text in
documents
und summiere das Ergebnis, um die Gesamtzahl der Token im Datensatz zu ermitteln,total_tokens
. - Drucke die Gesamtzahl der Token und die Kosten dieser Token unter Verwendung der für dich definierten
cost_per_1k_tokens
des Modells.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Load the encoder for the OpenAI text-embedding-3-small model
enc = tiktoken.encoding_for_model("____")
# Encode each text in documents and calculate the total tokens
total_tokens = ____(____(____) for ____ in documents)
cost_per_1k_tokens = 0.00002
# Display number of tokens and cost
print('Total tokens:', ____)
print('Cost:', ____)