LoslegenKostenlos loslegen

Inference in quantisierten Modellen beschleunigen

Dein Unternehmen verwendet für seinen Customer-Service-Chatbot schon seit einiger Zeit ein Llama-Modell mit Quantisierung. Eine der größten Kundenbeschwerden ist, dass der Bot sehr langsam antwortet und manchmal seltsame Antworten erzeugt.

Du vermutest, dass das an der Quantisierung auf 4 Bit ohne Normalisierung liegen könnte. In deiner Untersuchung gehst du außerdem davon aus, dass der Geschwindigkeitskompromiss von den Inference-Berechnungen kommt, die 32-Bit-Floats verwenden.

Du möchtest die Quantisierungskonfigurationen anpassen, um die Inference-Geschwindigkeit deines Modells zu verbessern. Die folgenden Imports wurden bereits geladen: AutoModelForCausalLM, AutoTokenizer und BitsAndBytesConfig.

Diese Übung ist Teil des Kurses

Feinabstimmung mit Llama 3

Kurs anzeigen

Anleitung zur Übung

  • Setze den Quantisierungstyp auf normalisierte 4 Bit, um Ausreißer zu reduzieren und damit weniger unsinnige Antworten zu erzeugen.
  • Setze den Compute-Typ auf bfloat16, um die Inference-Berechnungen zu beschleunigen.

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten