1. 학습
  2. /
  3. 강의
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

연습 문제

8비트 학습 준비

RLHF 미세 조정을 시작하려고 했지만, 계속해서 메모리 부족 오류가 발생했어요. 이를 해결하기 위해 Hugging Face의 peft 라이브러리를 활용해 8비트 정밀도로 전환하여 보다 효율적으로 미세 조정하기로 했습니다.

다음 항목들이 미리 임포트되어 있습니다:

  • transformers의 AutoModelForCausalLM
  • peft의 prepare_model_for_int8_training
  • trl의 AutoModelForCausalLMWithValueHead

지침

100 XP
  • 사전 학습된 모델을 로드하고 8비트 정밀도용 매개변수를 포함하세요.
  • prepare_model_for_int8_training 함수를 사용해 LoRA 기반 미세 조정을 할 수 있도록 모델을 준비하세요.
  • PPO 학습을 위해 value head가 포함된 모델을 로드하세요.