연습 문제

리워드 모델 점검하기

모델을 다시 미세 조정해 보았지만, 성능이 여전히 베이스 모델보다 떨어진다는 점을 발견했어요. 이번에는 리워드 모델을 들여다보고자 하며, 분석할 수 있도록 모델의 결과를 모아 데이터셋을 준비해 두었어요. 출력 데이터를 대상으로 어떤 점검을 하시겠어요?

데이터셋은 reward_model_results로 미리 가져와 두었습니다.

50 XP

극단 사례 살펴보기

데이터셋 분포 검사

리워드 정규화

위의 모든 항목