연습 문제

음의 KL 발산 완화하기

RLHF 기법으로 모델을 미세 조정하던 중, 베이스 모델과 비교해 성능이 떨어진 것을 확인했어요. 음의 KL 발산이 원인이라고 판단되어, 이 문제를 방지할 수 있도록 적절한 생성 파라미터를 설정하려고 합니다.

tokenizer는 미리 임포트되어 있습니다.

100 XP