Lära sig

/

Courses

/

Reinforcement Learning from Human Feedback (RLHF)

Connected

exercise

PPO 미세 조정

트레이너를 초기화했으니, 이제 모델을 미세 조정하기 위한 루프를 초기화해야 합니다.

보상 트레이너 ppo_trainer 는 trl Python 라이브러리의 PPOTrainer 클래스를 사용해 초기화되어 있습니다.

Instruktioner

100 XP

입력 ID와 트레이너를 사용해 PPO 루프 내에서 응답 텐서를 생성하세요.
쿼리, 응답, 보상 데이터를 사용해 PPO 모델을 최적화하는 PPO 루프 내의 step을 완성하세요.