Przyspieszanie wnioskowania w skwantyzowanych modelach

Twoja firma od jakiegoś czasu używa modelu Llama w chatbocie obsługi klienta z włączoną kwantyzacją. Jedną z najczęstszych skarg klientów jest to, że bot odpowiada bardzo wolno i czasami generuje dziwne odpowiedzi.

Podejrzewasz, że może to być związane z kwantyzacją do 4 bitów bez normalizacji. W trakcie analizy zauważasz również, że problem z szybkością może wynikać z obliczeń podczas wnioskowania, które korzystają z 32-bitowych liczb zmiennoprzecinkowych.

Chcesz dostosować konfigurację kwantyzacji, aby poprawić szybkość wnioskowania modelu. Następujące importy zostały już załadowane: AutoModelForCausalLM, AutoTokenizer oraz BitsAndBytesConfig.

Ustaw typ kwantyzacji na znormalizowany 4-bitowy, aby zredukować wartości odstające i ograniczyć generowanie bezsensownych odpowiedzi.
Ustaw typ obliczeniowy na bfloat16, aby przyspieszyć obliczenia podczas wnioskowania.

道练习

Przyspieszanie wnioskowania w skwantyzowanych modelach

说明

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}道练习

说明

道练习