1. Învăţa
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

exercise

PPO 트레이너 초기화

여러분은 고객 문의를 처리하는 챗봇을 운영하는 고객 지원 회사에서 일하고 있어요. 챗봇이 도움 되는 답변을 제공하긴 하지만, 최근 답변의 깊이가 부족하다는 피드백을 받았습니다. 챗봇 뒤의 모델을 미세 조정해야 하며, 먼저 PPO 트레이너 인스턴스를 만드는 것부터 시작합니다.

dataset_cs는 이미 로드되어 있습니다.

Instrucţiuni

100 XP
  • 모델 이름을 "gpt2", 학습률을 1.2e-5로 하여 PPO 설정을 초기화하세요.
  • 값 헤드를 포함한 causal language model인 AutoModelForCausalLMWithValueHead를 로드하세요.
  • 방금 정의한 모델, 설정, 토크나이저와 사전 로드된 데이터세트를 사용해 PPOTrainer()를 생성하세요.