1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Khởi tạo PPO trainer

Bạn đang làm việc cho một công ty dịch vụ khách hàng sử dụng chatbot để xử lý yêu cầu. Chatbot đưa ra phản hồi hữu ích, nhưng gần đây bạn nhận được phản hồi rằng câu trả lời còn thiếu chiều sâu. Bạn cần fine-tune mô hình đứng sau chatbot và bắt đầu bằng cách tạo một instance PPO trainer.

dataset_cs đã được tải sẵn.

Hướng dẫn

100 XP
  • Khởi tạo cấu hình PPO với tên mô hình "gpt2" và tốc độ học 1.2e-5.
  • Tải AutoModelForCausalLMWithValueHead, mô hình ngôn ngữ nhân quả có value head.
  • Tạo PPOTrainer() bằng model, cấu hình và tokenizer vừa định nghĩa, cùng với dataset đã tải sẵn.