1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Exercise

Fine-tune bằng PPO

Sau khi đã khởi tạo trainer, giờ bạn cần khởi tạo vòng lặp để fine-tune mô hình.

Reward trainer ppo_trainer đã được khởi tạo bằng lớp PPOTrainer từ thư viện Python trl.

Instructions

100 XP
  • Tạo các tensor phản hồi bằng cách dùng input ids và trainer trong vòng lặp PPO.
  • Hoàn thiện bước trong vòng lặp PPO sử dụng dữ liệu truy vấn, phản hồi và phần thưởng để tối ưu mô hình PPO.