선호도 데이터셋 준비하기

이 연습 문제에서는 사람이 제공한 피드백을 "chosen"과 "rejected" 출력 형태로 담고 있는 데이터셋을 다룹니다. 여러분의 과제는 "chosen" 열에서 프롬프트를 추출하고, 보상 모델 훈련을 위해 데이터를 준비하는 것입니다.

datasets의 load_dataset 함수는 미리 임포트되어 있습니다.