1. Lära sig
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

exercise

음의 KL 발산 완화하기

RLHF 기법으로 모델을 미세 조정하던 중, 베이스 모델과 비교해 성능이 떨어진 것을 확인했어요. 음의 KL 발산이 원인이라고 판단되어, 이 문제를 방지할 수 있도록 적절한 생성 파라미터를 설정하려고 합니다.

tokenizer는 미리 임포트되어 있습니다.

Instruktioner

100 XP
  • KL 발산을 피할 수 있도록 top_k와 min_length 값을 설정하세요.