양자화된 모델에서 추론 속도 높이기

여러분의 회사는 고객 지원 챗봇에 Llama 모델을 양자화하여 한동안 사용해 왔습니다. 가장 큰 고객 불만은 봇이 답변을 매우 느리게 하고 때때로 이상한 답을 낸다는 점이에요.

이 문제가 정규화 없이 4비트로 양자화한 것과 관련되어 있을 수 있다고 의심합니다. 조사 과정에서, 속도 저하가 32비트 부동소수점으로 추론 계산을 수행하는 데서 비롯된 트레이드오프일 가능성도 의심하고 있어요.

모델의 추론 속도를 개선하기 위해 양자화 구성을 조정하려고 합니다. 다음 임포트는 이미 로드되어 있습니다: AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig.