演習

報酬モデルをチェックする

微調整に戻って確認したところ、モデルの性能は依然としてベースモデルより劣っています。今回は報酬モデルを調べることにし、分析用にモデルの出力結果をまとめたデータセットを用意しました。出力データに対して、どのようなチェックを行いますか？

データセットは reward_model_results として事前にインポートされています。

50 XP

極端なケースを見る

データセットの分布を確認する

報酬を正規化する

上記すべて