学ぶ

/

コース

/

人間のフィードバックによる強化学習（RLHF）

Connected

演習

Reward Trainer を設定する

プロジェクトを続けます。報酬モデルの学習を開始できるように、model と config オブジェクトはすでに用意されています。

学習用および評価用データセットは、それぞれ train_data と eval_data として事前に読み込まれています。RewardTrainer は trl からインポート済みです。

指示

100 XP

RewardTrainer() を初期化し、モデル、トークナイザー、学習用データセット、評価用データセット、報酬の構成を対応する属性に割り当ててください。