1. 学ぶ
  2. /
  3. コース
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

演習

Reward Trainer を設定する

プロジェクトを続けます。報酬モデルの学習を開始できるように、model と config オブジェクトはすでに用意されています。

学習用および評価用データセットは、それぞれ train_data と eval_data として事前に読み込まれています。RewardTrainer は trl からインポート済みです。

指示

100 XP
  • RewardTrainer() を初期化し、モデル、トークナイザー、学習用データセット、評価用データセット、報酬の構成を対応する属性に割り当ててください。