Aan de slagGa gratis aan de slag

Inference versnellen in gequantiseerde modellen

Je bedrijf gebruikt al een tijdje een Llama-model met quantization voor de klantenservice-chatbot. Een van de grootste klachten is dat de bot erg traag antwoordt en soms vreemde antwoorden geeft.

Je vermoedt dat dit te maken heeft met quantizen naar 4-bit zonder normalisatie. In je onderzoek denk je ook dat de snelheidsafweging komt door de inference-berekeningen, die 32-bit floats gebruiken.

Je wilt de quantization-configuraties aanpassen om de inference-snelheid van je model te verbeteren. De volgende imports zijn al geladen: AutoModelForCausalLM, AutoTokenizer en BitsAndBytesConfig.

Deze oefening maakt deel uit van de cursus

Fijn-afstemmen met Llama 3

Cursus bekijken

Oefeninstructies

  • Stel het quantizationtype in op genormaliseerde 4-bit om uitschieters te verminderen en zo minder onzinnige antwoorden te krijgen.
  • Stel het compute type in op bfloat16 om de inference-berekeningen te versnellen.

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen