Bài tập

Kiểm tra reward model

Bạn quay lại tinh chỉnh mô hình và nhận thấy hiệu năng của mô hình vẫn kém hơn so với mô hình gốc. Lần này, bạn muốn kiểm tra reward model và bạn đã tạo một tập dữ liệu chứa các kết quả từ mô hình để phân tích. Bạn sẽ thực hiện những kiểm tra nào trên dữ liệu đầu ra?

Tập dữ liệu đã được nhập sẵn dưới tên reward_model_results.

Hướng dẫn

50 XP

Các phương án trả lời

Xem các trường hợp cực trị

Xem xét phân phối của tập dữ liệu

Chuẩn hóa phần thưởng

Tất cả những điều trên

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Các phương án trả lời

Bài tập