1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Trích xuất prompt

Bạn đang làm việc với tập dữ liệu hendrydong/rlhf_helpful_eval, chứa hội thoại giữa người dùng (Human) và trợ lý (Assistant). Mục tiêu của bạn là làm sạch văn bản, tạo một prompt sạch nơi chỉ còn lại nội dung liên quan, không có mẫu định dạng hay thẻ đặc biệt.

Hãy chọn cách bạn sẽ dùng để làm sạch tập dữ liệu nhằm trích xuất các prompt. Bạn có thể xem một phần nhỏ dữ liệu bằng cách chạy đoạn mã sau trong console:

evaluation_data.iloc[range(1)]['text'][0]

Hướng dẫn

50 XP

Các phương án trả lời