학습

/

강의

/

Reinforcement Learning from Human Feedback (RLHF)

Connected

연습 문제

Reward Trainer 설정하기

프로젝트를 계속 진행하면서 이제 보상 모델 학습을 시작할 준비가 된 model과 config 객체가 준비되어 있어요.

학습 및 평가 데이터셋은 각각 train_data와 eval_data로 미리 로드되어 있습니다. RewardTrainer는 trl에서 이미 가져왔어요.

지침

100 XP

모델, 토크나이저, 학습 데이터셋, 평가 데이터셋, 보상 구성을 속성으로 지정해 RewardTrainer()를 초기화하세요.