Zrychlení inference v kvantizovaných modelech

Tvoje firma už nějakou dobu používá model Llama s kvantizací pro chatbota zákaznické podpory. Jednou z nejčastějších stížností zákazníků je, že bot odpovídá velmi pomalu a občas produkuje nesmyslné odpovědi.

Máš podezření, že příčinou může být kvantizace na 4 bity bez normalizace. Při prošetřování také tušíš, že zpomalení pochází z výpočtů při inferenci, které používají 32bitové floaty.

Chceš upravit konfiguraci kvantizace, aby se rychlost inference zlepšila. Následující importy jsou již načteny: AutoModelForCausalLM, AutoTokenizer a BitsAndBytesConfig.

Nastav typ kvantizace na normalizované 4 bity, čímž omezíš odlehlé hodnoty a model bude produkovat méně nesmyslných odpovědí.
Nastav výpočetní typ na bfloat16, aby se urychlily výpočty při inferenci.

Cvičení

Zrychlení inference v kvantizovaných modelech

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Cvičení

Pokyny

Cvičení