학습

/

강의

/

Reinforcement Learning from Human Feedback (RLHF)

Connected

연습 문제

LoRA로 학습하기

RLHF 미세 조정을 시작하려 했지만 메모리 부족 오류가 계속 발생했어요. 모델을 8비트 정밀도로 로드하도록 바꿨는데도 오류가 사라지지 않았죠. 이를 해결하기 위해 다음 단계로 넘어가, 더 효율적인 미세 조정을 위해 LoRA를 적용하기로 했어요.

다음 항목들은 이미 임포트되어 있어요:

8비트 정밀도로 로드된 모델 pretrained_model_8bit
peft의 LoraConfig와 get_peft_model
trl의 AutoModelForCausalLMWithValueHead

지침

100 XP

LoRA 드롭아웃을 0.1로 설정하고 bias 타입은 lora-only로 지정하세요.
LoRA 설정을 모델에 적용하세요.
PPO 학습을 위해 value head가 포함된 모델을 구성하세요.