1. 学习
  2. /
  3. 课程
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

练习

PPO によるファインチューニング

トレーナーを初期化したら、次はループを初期化してモデルをファインチューニングします。

報酬トレーナー ppo_trainer は、trl の Python ライブラリにある PPOTrainer クラスを使って初期化されています。

说明

100 XP
  • 入力 ID とトレーナーを使って、PPO ループ内で応答テンソルを生成します。
  • クエリ、応答、報酬データを用いて PPO モデルを最適化する、PPO ループ内の step を完成させます。