1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

프롬프트 추출하기

hendrydong/rlhf_helpful_eval 데이터셋에는 사용자(Human)와 보조 모델(Assistant) 사이의 대화형 텍스트가 들어 있습니다. 목표는 텍스트를 정제해, 특정 패턴이나 태그 없이 관련 텍스트만 포함된 깔끔한 프롬프트를 준비하는 것입니다.

프롬프트를 추출하기 위해 데이터셋을 정제할 때 사용할 옵션을 고르세요. 콘솔에서 다음 코드를 실행하면 데이터셋의 일부를 확인할 수 있습니다:

evaluation_data.iloc[range(1)]['text'][0]

Hướng dẫn

50 XP

Các phương án trả lời