Erste SchritteKostenlos loslegen

Schätzung der Einbettungskosten mit Tiktoken

Nachdem wir nun eine Datenbank und eine Sammlung erstellt haben, in der wir die Netflix-Filme und TV -Sendungen speichern, können wir damit beginnen, Daten einzubetten.

Bevor du einen großen Datensatz einbettest, ist es wichtig, dass du eine Kostenschätzung vornimmst, um sicherzustellen, dass du dein Budget nicht überschreitest. Da OpenAI-Modelle nach der Anzahl der eingegebenen Token berechnet werden, verwenden wir die OpenAI-Bibliothek tiktoken, um die Anzahl der Token zu zählen und sie in einen Dollarpreis umzurechnen.

Du hast documents erhalten, eine Liste mit allen Daten, die du einbetten musst. Du durchläufst die Liste, kodierst jedes Dokument und zählst die Gesamtzahl der Token. Schließlich wendest du die Preise des Modells an, um sie in Kosten umzuwandeln.

Diese Übung ist Teil des Kurses

Einführung in Embeddings mit der OpenAI API

Kurs anzeigen

Anleitung zur Übung

  • Lade den Encoder für das Modell text-embedding-3-small.
  • Kodiere jeden Text in documents und summiere das Ergebnis, um die Gesamtzahl der Token im Datensatz zu ermitteln, total_tokens.
  • Drucke die Gesamtzahl der Token und die Kosten dieser Token unter Verwendung der für dich definierten cost_per_1k_tokens des Modells.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Load the encoder for the OpenAI text-embedding-3-small model
enc = tiktoken.encoding_for_model("____")

# Encode each text in documents and calculate the total tokens
total_tokens = ____(____(____) for ____ in documents)

cost_per_1k_tokens = 0.00002

# Display number of tokens and cost
print('Total tokens:', ____)
print('Cost:', ____)
Bearbeiten und Ausführen von Code