Học hỏi

/

Khoa Học

/

Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Fine-tune bằng PPO

Sau khi đã khởi tạo trainer, giờ bạn cần khởi tạo vòng lặp để fine-tune mô hình.

Reward trainer ppo_trainer đã được khởi tạo bằng lớp PPOTrainer từ thư viện Python trl.

Hướng dẫn

100 XP

Tạo các tensor phản hồi bằng cách dùng input ids và trainer trong vòng lặp PPO.
Hoàn thiện bước trong vòng lặp PPO sử dụng dữ liệu truy vấn, phản hồi và phần thưởng để tối ưu mô hình PPO.