8비트 모델 로드하기

귀사는 한동안 고객 지원 챗봇에 Llama 모델을 사용해 왔어요. 이제 성능 저하를 최소화하면서 모델의 GPU 메모리 사용량을 줄이는 방법을 알아보라는 임무를 받았어요. 이렇게 하면 더 저렴한 컴퓨팅 클러스터로 전환해 비용을 크게 절감할 수 있어요.

모델을 8비트 양자화로 로드해도 합리적인 성능을 유지할 수 있는지 테스트해 보려고 해요.

model_name에 모델이 제공되어 있어요. AutoModelForCausalLM과 AutoTokenizer는 이미 임포트되어 있어요.