1. 학습
  2. /
  3. 강의
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

연습 문제

여러 데이터 소스에서 다수결 투표하기

여러분의 팀은 스마트폰 품질 관리(QC) 보고서를 자동 생성하는 AI 모델을 개발하고 있어요. 이를 위해 세 가지 품질 관리 소스—"Automated Vision System", "Human Inspector", "Customer Feedback"—에서 선호도 데이터를 수집했어요. 각 소스는 페어로 구성된 텍스트 샘플에 'chosen'과 'rejected' 라벨을 부여했어요. 각 페어에는 고유한 'id'가 있으며, 각 항목은 선호되는 QC 리뷰를 보여줍니다.

quality_df는 pandas로 불러온 통합 DataFrame으로, 세 가지 서로 다른 데이터 소스의 데이터를 담고 있어요. 추가로, collections 모듈에서 Counter 클래스가 미리 임포트되어 있어요.

지침

100 XP
  • vote 함수에서 각 (chosen, rejected) 페어의 발생 횟수를 세세요.
  • 표 수가 가장 높은 (chosen, rejected) 페어를 찾으세요.