1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Exercises

Kiểm tra reward model

Bạn quay lại tinh chỉnh mô hình và nhận thấy hiệu năng của mô hình vẫn kém hơn so với mô hình gốc. Lần này, bạn muốn kiểm tra reward model và bạn đã tạo một tập dữ liệu chứa các kết quả từ mô hình để phân tích. Bạn sẽ thực hiện những kiểm tra nào trên dữ liệu đầu ra?

Tập dữ liệu đã được nhập sẵn dưới tên reward_model_results.

คำแนะนำ

50 XP

คำตอบที่เป็นไปได้