1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Thiết lập reward trainer

Dự án của bạn tiếp tục và hiện bạn đã có các đối tượng model và config sẵn sàng để bắt đầu huấn luyện reward model.

Các tập dữ liệu huấn luyện và đánh giá đã được nạp sẵn thành train_data và eval_data. RewardTrainer đã được import từ trl.

Hướng dẫn

100 XP
  • Khởi tạo RewardTrainer() bằng cách gán model, tokenizer, tập dữ liệu huấn luyện, tập dữ liệu đánh giá và cấu hình phần thưởng vào các thuộc tính tương ứng của nó.