1. 学ぶ
  2. /
  3. コース
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

演習

Kiểm tra reward model

Bạn quay lại tinh chỉnh mô hình và nhận thấy hiệu năng của mô hình vẫn kém hơn so với mô hình gốc. Lần này, bạn muốn kiểm tra reward model và bạn đã tạo một tập dữ liệu chứa các kết quả từ mô hình để phân tích. Bạn sẽ thực hiện những kiểm tra nào trên dữ liệu đầu ra?

Tập dữ liệu đã được nhập sẵn dưới tên reward_model_results.

指示

50 XP

選択肢