Inference versnellen in gequantiseerde modellen
Je bedrijf gebruikt al een tijdje een Llama-model met quantization voor de klantenservice-chatbot. Een van de grootste klachten is dat de bot erg traag antwoordt en soms vreemde antwoorden geeft.
Je vermoedt dat dit te maken heeft met quantizen naar 4-bit zonder normalisatie. In je onderzoek denk je ook dat de snelheidsafweging komt door de inference-berekeningen, die 32-bit floats gebruiken.
Je wilt de quantization-configuraties aanpassen om de inference-snelheid van je model te verbeteren. De volgende imports zijn al geladen: AutoModelForCausalLM, AutoTokenizer en BitsAndBytesConfig.
Deze oefening maakt deel uit van de cursus
Fijn-afstemmen met Llama 3
Oefeninstructies
- Stel het quantizationtype in op genormaliseerde 4-bit om uitschieters te verminderen en zo minder onzinnige antwoorden te krijgen.
- Stel het compute type in op bfloat16 om de inference-berekeningen te versnellen.
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen