Inference in quantisierten Modellen beschleunigen
Dein Unternehmen verwendet für seinen Customer-Service-Chatbot schon seit einiger Zeit ein Llama-Modell mit Quantisierung. Eine der größten Kundenbeschwerden ist, dass der Bot sehr langsam antwortet und manchmal seltsame Antworten erzeugt.
Du vermutest, dass das an der Quantisierung auf 4 Bit ohne Normalisierung liegen könnte. In deiner Untersuchung gehst du außerdem davon aus, dass der Geschwindigkeitskompromiss von den Inference-Berechnungen kommt, die 32-Bit-Floats verwenden.
Du möchtest die Quantisierungskonfigurationen anpassen, um die Inference-Geschwindigkeit deines Modells zu verbessern. Die folgenden Imports wurden bereits geladen: AutoModelForCausalLM, AutoTokenizer und BitsAndBytesConfig.
Diese Übung ist Teil des Kurses
Feinabstimmung mit Llama 3
Anleitung zur Übung
- Setze den Quantisierungstyp auf normalisierte 4 Bit, um Ausreißer zu reduzieren und damit weniger unsinnige Antworten zu erzeugen.
- Setze den Compute-Typ auf bfloat16, um die Inference-Berechnungen zu beschleunigen.
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten