1. 학습
  2. /
  3. 강의
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

연습 문제

報酬モデルをチェックする

微調整に戻って確認したところ、モデルの性能は依然としてベースモデルより劣っています。今回は報酬モデルを調べることにし、分析用にモデルの出力結果をまとめたデータセットを用意しました。出力データに対して、どのようなチェックを行いますか?

データセットは reward_model_results として事前にインポートされています。

지침

50 XP

가능한 답변