1. 학습
  2. /
  3. 강의
  4. /
  5. Llama 3 미세 조정(Fine-Tuning)

Connected

연습 문제

양자화된 모델에서 추론 속도 높이기

여러분의 회사는 고객 지원 챗봇에 Llama 모델을 양자화하여 한동안 사용해 왔습니다. 가장 큰 고객 불만은 봇이 답변을 매우 느리게 하고 때때로 이상한 답을 낸다는 점이에요.

이 문제가 정규화 없이 4비트로 양자화한 것과 관련되어 있을 수 있다고 의심합니다. 조사 과정에서, 속도 저하가 32비트 부동소수점으로 추론 계산을 수행하는 데서 비롯된 트레이드오프일 가능성도 의심하고 있어요.

모델의 추론 속도를 개선하기 위해 양자화 구성을 조정하려고 합니다. 다음 임포트는 이미 로드되어 있습니다: AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig.

지침

100 XP
  • 이상치를 줄여 터무니없는 답변을 줄이도록, 양자화 타입을 정규화된 4비트로 설정하세요.
  • 추론 계산 속도를 높이도록 compute 타입을 bfloat16으로 설정하세요.