1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Exercise

Bỏ phiếu đa số trên nhiều nguồn dữ liệu

Nhóm của bạn đang phát triển một mô hình AI để tự động tạo báo cáo kiểm soát chất lượng (QC) cho smartphone. Để phục vụ mục đích này, bạn đã thu thập dữ liệu ưu tiên từ ba nguồn QC khác nhau — một "Automated Vision System", một "Human Inspector", và "Customer Feedback". Mỗi nguồn đã gán nhãn cho các cặp mẫu văn bản là 'chosen' và 'rejected'. Mỗi cặp có một 'id' duy nhất, và mỗi bản ghi thể hiện một bài đánh giá QC được ưu tiên.

quality_df là một DataFrame tổng hợp được tải bằng pandas. Nó chứa dữ liệu từ ba nguồn khác nhau. Ngoài ra, lớp Counter đã được nhập sẵn từ mô-đun collections.

Instructions

100 XP
  • Đếm số lần xuất hiện của từng cặp (chosen, rejected) trong hàm vote.
  • Tìm cặp (chosen, rejected) có số phiếu cao nhất.