1. Learn
  2. /
  3. 课程
  4. /
  5. Fine-Tuning z Llama 3

Connected

道练习

Przyspieszanie wnioskowania w skwantyzowanych modelach

Twoja firma od jakiegoś czasu używa modelu Llama w chatbocie obsługi klienta z włączoną kwantyzacją. Jedną z najczęstszych skarg klientów jest to, że bot odpowiada bardzo wolno i czasami generuje dziwne odpowiedzi.

Podejrzewasz, że może to być związane z kwantyzacją do 4 bitów bez normalizacji. W trakcie analizy zauważasz również, że problem z szybkością może wynikać z obliczeń podczas wnioskowania, które korzystają z 32-bitowych liczb zmiennoprzecinkowych.

Chcesz dostosować konfigurację kwantyzacji, aby poprawić szybkość wnioskowania modelu. Następujące importy zostały już załadowane: AutoModelForCausalLM, AutoTokenizer oraz BitsAndBytesConfig.

说明

100 XP
  • Ustaw typ kwantyzacji na znormalizowany 4-bitowy, aby zredukować wartości odstające i ograniczyć generowanie bezsensownych odpowiedzi.
  • Ustaw typ obliczeniowy na bfloat16, aby przyspieszyć obliczenia podczas wnioskowania.