1. 학습
  2. /
  3. 강의
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

연습 문제

PPO 미세 조정

트레이너를 초기화했으니, 이제 모델을 미세 조정하기 위한 루프를 초기화해야 합니다.

보상 트레이너 ppo_trainer 는 trl Python 라이브러리의 PPOTrainer 클래스를 사용해 초기화되어 있습니다.

지침

100 XP
  • 입력 ID와 트레이너를 사용해 PPO 루프 내에서 응답 텐서를 생성하세요.
  • 쿼리, 응답, 보상 데이터를 사용해 PPO 모델을 최적화하는 PPO 루프 내의 step을 완성하세요.