1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

अभ्यास

PPO トレーナーを初期化する

あなたは顧客対応を行う企業で働いており、チャットボットが問い合わせに対応しています。チャットボットは有用な回答を返しますが、最近「内容が浅い」というフィードバックが届きました。そこで、チャットボットの背後にあるモデルをファインチューニングする必要があります。まずは PPO トレーナーのインスタンス作成から始めましょう。

dataset_cs はすでに読み込まれています。

निर्देश

100 XP
  • モデル名を "gpt2"、学習率を 1.2e-5 として、PPO の設定を初期化します。
  • Value head を備えた因果言語モデルである AutoModelForCausalLMWithValueHead を読み込みます。
  • 定義したモデル、設定、トークナイザーと、あらかじめ読み込まれているデータセットを用いて、PPOTrainer() を作成します。