Aan de slagGa gratis aan de slag

Inference versnellen in gequantiseerde modellen

Je bedrijf gebruikt al een tijdje een Llama-model met quantization voor de klantenservice-chatbot. Een van de grootste klachten is dat de bot erg traag antwoordt en soms vreemde antwoorden geeft.

Je vermoedt dat dit te maken heeft met quantizen naar 4-bit zonder normalisatie. In je onderzoek denk je ook dat de snelheidsafweging komt door de inference-berekeningen, die 32-bit floats gebruiken.

Je wilt de quantization-configuraties aanpassen om de inference-snelheid van je model te verbeteren. De volgende imports zijn al geladen: AutoModelForCausalLM, AutoTokenizer en BitsAndBytesConfig.

Deze oefening maakt deel uit van de cursus

Fijn-afstemmen met Llama 3

Cursus bekijken

Oefeninstructies

  • Stel het quantizationtype in op genormaliseerde 4-bit om uitschieters te verminderen en zo minder onzinnige antwoorden te krijgen.
  • Stel het compute type in op bfloat16 om de inference-berekeningen te versnellen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
  	# Set quantization type to normalized 4-bit
    ____=____,
  	# Set compute data type to be bfloat16
    ____=____
)
model = AutoModelForCausalLM.from_pretrained(
    "Maykeye/TinyLLama-v0",
    quantization_config=bnb_config,
    low_cpu_mem_usage=True
)
Code bewerken en uitvoeren