1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Độ tự tin thấp

Trong bài tập này, bạn sẽ làm việc với một mô hình phần thưởng để đánh giá mức độ tự tin khi mô hình phân loại văn bản đầu vào và lọc bỏ các dự đoán thiếu độ tin cậy. Mục tiêu là đánh giá khả năng tạo dự đoán của mô hình và áp dụng một ngưỡng độ tự tin để đảm bảo chỉ các dự đoán có độ tự tin cao mới được xem là hợp lệ.

Các biến phân phối xác suất cho mỗi văn bản phản hồi (prob_dists) và văn bản phản hồi (texts), cùng hàm least_confidence() đã được nạp sẵn.

Hướng dẫn

100 XP
  • Định nghĩa hàm để lọc các chỉ số của các phân phối xác suất có độ tự tin thấp hơn một ngưỡng cho trước.
  • Lấy các chỉ số của phản hồi bằng cách truyền các phân phối xác suất vào hàm, giữ nguyên ngưỡng (0.5).