1. 학습
  2. /
  3. 강의
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

연습 문제

음의 KL 발산 완화하기

RLHF 기법으로 모델을 미세 조정하던 중, 베이스 모델과 비교해 성능이 떨어진 것을 확인했어요. 음의 KL 발산이 원인이라고 판단되어, 이 문제를 방지할 수 있도록 적절한 생성 파라미터를 설정하려고 합니다.

tokenizer는 미리 임포트되어 있습니다.

지침

100 XP
  • KL 발산을 피할 수 있도록 top_k와 min_length 값을 설정하세요.