1. 학습
  2. /
  3. 강의
  4. /
  5. Llama 3 미세 조정(Fine-Tuning)

Connected

연습 문제

8비트 모델 로드하기

귀사는 한동안 고객 지원 챗봇에 Llama 모델을 사용해 왔어요. 이제 성능 저하를 최소화하면서 모델의 GPU 메모리 사용량을 줄이는 방법을 알아보라는 임무를 받았어요. 이렇게 하면 더 저렴한 컴퓨팅 클러스터로 전환해 비용을 크게 절감할 수 있어요.

모델을 8비트 양자화로 로드해도 합리적인 성능을 유지할 수 있는지 테스트해 보려고 해요.

model_name에 모델이 제공되어 있어요. AutoModelForCausalLM과 AutoTokenizer는 이미 임포트되어 있어요.

지침

100 XP
  • 양자화로 모델을 로드할 수 있도록 설정 클래스를 임포트하세요.
  • 양자화 설정 클래스를 인스턴스화하세요.
  • 8비트로 모델을 로드하도록 양자화 매개변수를 설정하세요.
  • 양자화 설정을 AutoModelForCausalLM에 전달해 양자화된 모델을 로드하세요.