1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Giảm thiểu phân kỳ KL âm

Bạn đang fine-tune mô hình bằng các kỹ thuật RLHF và nhận thấy hiệu suất của mô hình tệ hơn so với mô hình gốc. Bạn nghi ngờ nguyên nhân là do phân kỳ KL âm, nên muốn đặt các tham số sinh phù hợp để tránh vấn đề này.

tokenizer đã được nhập sẵn.

Hướng dẫn

100 XP
  • Đặt top_k và min_length về các giá trị giúp tránh phân kỳ KL.