보상 초기화하기

여러분은 온라인 서점을 위한 개인화 추천을 제공하는 생성 모델의 배포 막바지 단계에 있습니다. 이 모델을 사람 선호도에 맞추려면, 수집한 선호 데이터로 보상 모델을 학습해야 해요. 첫 단계는 모델과 구성 매개변수를 초기화하는 일입니다.

AutoTokenizer와 AutoModelForSequenceClassification은 transformers에서 미리 로드되어 있고, RewardConfig는 trl에서 미리 로드되어 있습니다.