学ぶ

/

コース

/

人間のフィードバックによる強化学習（RLHF）

Connected

演習

PPO によるファインチューニング

トレーナーを初期化したら、次はループを初期化してモデルをファインチューニングします。

報酬トレーナー ppo_trainer は、trl の Python ライブラリにある PPOTrainer クラスを使って初期化されています。

指示

100 XP

入力 ID とトレーナーを使って、PPO ループ内で応答テンソルを生成します。
クエリ、応答、報酬データを用いて PPO モデルを最適化する、PPO ループ内の step を完成させます。