Inference in quantisierten Modellen beschleunigen
Dein Unternehmen verwendet für seinen Customer-Service-Chatbot schon seit einiger Zeit ein Llama-Modell mit Quantisierung. Eine der größten Kundenbeschwerden ist, dass der Bot sehr langsam antwortet und manchmal seltsame Antworten erzeugt.
Du vermutest, dass das an der Quantisierung auf 4 Bit ohne Normalisierung liegen könnte. In deiner Untersuchung gehst du außerdem davon aus, dass der Geschwindigkeitskompromiss von den Inference-Berechnungen kommt, die 32-Bit-Floats verwenden.
Du möchtest die Quantisierungskonfigurationen anpassen, um die Inference-Geschwindigkeit deines Modells zu verbessern. Die folgenden Imports wurden bereits geladen: AutoModelForCausalLM, AutoTokenizer und BitsAndBytesConfig.
Diese Übung ist Teil des Kurses
Feinabstimmung mit Llama 3
Anleitung zur Übung
- Setze den Quantisierungstyp auf normalisierte 4 Bit, um Ausreißer zu reduzieren und damit weniger unsinnige Antworten zu erzeugen.
- Setze den Compute-Typ auf bfloat16, um die Inference-Berechnungen zu beschleunigen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
# Set quantization type to normalized 4-bit
____=____,
# Set compute data type to be bfloat16
____=____
)
model = AutoModelForCausalLM.from_pretrained(
"Maykeye/TinyLLama-v0",
quantization_config=bnb_config,
low_cpu_mem_usage=True
)