1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Chuẩn bị tập dữ liệu ưu tiên

Trong bài tập này, bạn sẽ làm việc với một tập dữ liệu chứa phản hồi của con người dưới dạng đầu ra "được chọn" và "bị từ chối". Nhiệm vụ của bạn là trích xuất các prompt từ cột "được chọn" và chuẩn bị dữ liệu để huấn luyện một mô hình phần thưởng.

Hàm load_dataset từ datasets đã được nhập sẵn

Hướng dẫn

100 XP
  • Tải tập dữ liệu trl-internal-testing/hh-rlhf-helpful-base-trl-style từ Hugging Face.
  • Viết một hàm trích xuất prompt từ trường 'content', giả định rằng prompt nằm ở chỉ mục 0 của đầu vào cho hàm.
  • Áp dụng hàm trích xuất prompt cho phân tập dữ liệu 'chosen'.