1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Fine-Tuning s Llama 3

Connected

Cvičení

Zrychlení inference v kvantizovaných modelech

Tvoje firma už nějakou dobu používá model Llama s kvantizací pro chatbota zákaznické podpory. Jednou z nejčastějších stížností zákazníků je, že bot odpovídá velmi pomalu a občas produkuje nesmyslné odpovědi.

Máš podezření, že příčinou může být kvantizace na 4 bity bez normalizace. Při prošetřování také tušíš, že zpomalení pochází z výpočtů při inferenci, které používají 32bitové floaty.

Chceš upravit konfiguraci kvantizace, aby se rychlost inference zlepšila. Následující importy jsou již načteny: AutoModelForCausalLM, AutoTokenizer a BitsAndBytesConfig.

Pokyny

100 XP
  • Nastav typ kvantizace na normalizované 4 bity, čímž omezíš odlehlé hodnoty a model bude produkovat méně nesmyslných odpovědí.
  • Nastav výpočetní typ na bfloat16, aby se urychlily výpočty při inferenci.