1. 学ぶ
  2. /
  3. コース
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

演習

報酬モデルをチェックする

微調整に戻って確認したところ、モデルの性能は依然としてベースモデルより劣っています。今回は報酬モデルを調べることにし、分析用にモデルの出力結果をまとめたデータセットを用意しました。出力データに対して、どのようなチェックを行いますか?

データセットは reward_model_results として事前にインポートされています。

指示

50 XP

選択肢