1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Exercise

선호도 데이터셋 준비하기

이 연습 문제에서는 사람이 제공한 피드백을 "chosen"과 "rejected" 출력 형태로 담고 있는 데이터셋을 다룹니다. 여러분의 과제는 "chosen" 열에서 프롬프트를 추출하고, 보상 모델 훈련을 위해 데이터를 준비하는 것입니다.

datasets의 load_dataset 함수는 미리 임포트되어 있습니다.

Instructions

100 XP
  • Hugging Face에서 trl-internal-testing/hh-rlhf-helpful-base-trl-style 데이터셋을 로드하세요.
  • 함수의 입력에서 프롬프트가 인덱스 0 위치에 있다고 가정하고, 'content' 필드에서 프롬프트를 추출하는 함수를 작성하세요.
  • 프롬프트를 추출하는 함수를 'chosen' 데이터셋 서브셋에 적용하세요.