1. 学ぶ
  2. /
  3. コース
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

演習

負のKLダイバージェンスの緩和

RLHFの手法でモデルをファインチューニングしたところ、ベースモデルと比べて性能が悪化していることに気づきました。負のKLダイバージェンスが原因だと考えられるため、この問題を避けるために適切な生成パラメータを設定したいと考えています。

tokenizer はあらかじめインポートされています。

指示

100 XP
  • KLダイバージェンスを避けられるように、top_k と min_length に適切な値を設定してください。