LoslegenKostenlos loslegen

Embedding-Kosten mit tiktoken schätzen

Jetzt, da wir eine Datenbank und eine Collection zum Speichern der Netflix-Filme und -Serien erstellt haben, können wir mit dem Einbetten von Daten beginnen.

Bevor du einen großen Datensatz einbettest, ist es wichtig, die Kosten zu schätzen, damit du kein Budget überschreitest. Da OpenAI-Modelle nach der Anzahl der eingegebenen Tokens abgerechnet werden, verwenden wir die OpenAI‑Bibliothek tiktoken, um die Anzahl der Tokens zu zählen und sie in Kosten in US‑Dollar umzurechnen.

Du hast documents erhalten, eine Liste mit allen zu embed­denden Daten. Du iterierst über die Liste, encodierst jedes Dokument und zählst die Gesamtzahl der Tokens. Abschließend nutzt du die Modellpreise, um das in Kosten umzuwandeln.

Diese Übung ist Teil des Kurses

Einführung in Embeddings mit der OpenAI API

Kurs anzeigen

Anleitung zur Übung

  • Lade den Encoder für das Modell text-embedding-3-small.
  • Encodiere jeden Text in documents und summiere das Ergebnis, um die Gesamtzahl der Tokens im Datensatz, total_tokens, zu ermitteln.
  • Gib die Gesamtzahl der Tokens und die Kosten dieser Tokens mithilfe von cost_per_1k_tokens des Modells aus, das für dich definiert ist.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the encoder for the OpenAI text-embedding-3-small model
enc = tiktoken.encoding_for_model("____")

# Encode each text in documents and calculate the total tokens
total_tokens = ____(____(____) for ____ in documents)

cost_per_1k_tokens = 0.00002

# Display number of tokens and cost
print('Total tokens:', ____)
print('Cost:', ____)
Code bearbeiten und ausführen