Aan de slagGa gratis aan de slag

8-bitmodellen laden

Je bedrijf gebruikt al een tijdje een Llama-model voor de klantenservicechatbot. Jij krijgt de taak om uit te zoeken hoe je het GPU-geheugengebruik van het model kunt verlagen zonder de prestaties noemenswaardig te beïnvloeden. Zo kan het team overstappen op een goedkopere compute‑cluster en bespaart het bedrijf veel geld.

Je besluit te testen of je het model met 8‑bitquantisatie kunt laden en toch een redelijke performance behoudt.

Je krijgt het model in model_name. AutoModelForCausalLM en AutoTokenizer zijn al voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Fijn-afstemmen met Llama 3

Cursus bekijken

Oefeninstructies

  • Importeer de configuratieklasse om modellen met quantisatie te kunnen laden.
  • Maak een instantie van de quantisatieconfiguratieklasse.
  • Stel de quantisatieparameters zo in dat het model in 8 bit wordt geladen.
  • Geef de quantisatieconfiguratie door aan AutoModelForCausalLM om het gequantiseerde model te laden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import quantization configuration class
from ____ import ____
# Instantiate quantization configuration
bnb_config = ____(
	# Set 8-bit loading
	____=True,
)
model = AutoModelForCausalLM.from_pretrained(
    "Maykeye/TinyLLama-v0",
  	# Set quantization parameters to load quantized model
    ____=bnb_config,
    low_cpu_mem_usage=True
)
Code bewerken en uitvoeren