8-bitmodellen laden
Je bedrijf gebruikt al een tijdje een Llama-model voor de klantenservicechatbot. Jij krijgt de taak om uit te zoeken hoe je het GPU-geheugengebruik van het model kunt verlagen zonder de prestaties noemenswaardig te beïnvloeden. Zo kan het team overstappen op een goedkopere compute‑cluster en bespaart het bedrijf veel geld.
Je besluit te testen of je het model met 8‑bitquantisatie kunt laden en toch een redelijke performance behoudt.
Je krijgt het model in model_name. AutoModelForCausalLM en AutoTokenizer zijn al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Fijn-afstemmen met Llama 3
Oefeninstructies
- Importeer de configuratieklasse om modellen met quantisatie te kunnen laden.
- Maak een instantie van de quantisatieconfiguratieklasse.
- Stel de quantisatieparameters zo in dat het model in 8 bit wordt geladen.
- Geef de quantisatieconfiguratie door aan
AutoModelForCausalLMom het gequantiseerde model te laden.
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen