Inference versnellen in gequantiseerde modellen
Je bedrijf gebruikt al een tijdje een Llama-model met quantization voor de klantenservice-chatbot. Een van de grootste klachten is dat de bot erg traag antwoordt en soms vreemde antwoorden geeft.
Je vermoedt dat dit te maken heeft met quantizen naar 4-bit zonder normalisatie. In je onderzoek denk je ook dat de snelheidsafweging komt door de inference-berekeningen, die 32-bit floats gebruiken.
Je wilt de quantization-configuraties aanpassen om de inference-snelheid van je model te verbeteren. De volgende imports zijn al geladen: AutoModelForCausalLM, AutoTokenizer en BitsAndBytesConfig.
Deze oefening maakt deel uit van de cursus
Fijn-afstemmen met Llama 3
Oefeninstructies
- Stel het quantizationtype in op genormaliseerde 4-bit om uitschieters te verminderen en zo minder onzinnige antwoorden te krijgen.
- Stel het compute type in op bfloat16 om de inference-berekeningen te versnellen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
# Set quantization type to normalized 4-bit
____=____,
# Set compute data type to be bfloat16
____=____
)
model = AutoModelForCausalLM.from_pretrained(
"Maykeye/TinyLLama-v0",
quantization_config=bnb_config,
low_cpu_mem_usage=True
)