1. 학습
  2. /
  3. 강의
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

연습 문제

負のKLダイバージェンスの緩和

RLHFの手法でモデルをファインチューニングしたところ、ベースモデルと比べて性能が悪化していることに気づきました。負のKLダイバージェンスが原因だと考えられるため、この問題を避けるために適切な生成パラメータを設定したいと考えています。

tokenizer はあらかじめインポートされています。

지침

100 XP
  • KLダイバージェンスを避けられるように、top_k と min_length に適切な値を設定してください。