학습

/

강의

/

人間のフィードバックによる強化学習（RLHF）

Connected

연습 문제

負のKLダイバージェンスの緩和

RLHFの手法でモデルをファインチューニングしたところ、ベースモデルと比べて性能が悪化していることに気づきました。負のKLダイバージェンスが原因だと考えられるため、この問題を避けるために適切な生成パラメータを設定したいと考えています。

tokenizer はあらかじめインポートされています。

지침

100 XP

KLダイバージェンスを避けられるように、top_k と min_length に適切な値を設定してください。