1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Exercise

Khởi tạo reward

Bạn đang ở giai đoạn cuối cùng để triển khai một mô hình sinh (generative model) dùng cho gợi ý cá nhân hóa của một hiệu sách trực tuyến. Để mô hình phù hợp với các gợi ý được con người ưa thích, bạn cần huấn luyện một reward model bằng dữ liệu sở thích đã thu thập. Bước đầu tiên là khởi tạo mô hình và các tham số cấu hình.

AutoTokenizer và AutoModelForSequenceClassification đã được nạp sẵn từ transformers. RewardConfig đã được nạp sẵn từ trl.

Instructions

100 XP
  • Tải mô hình GPT-1, "openai-gpt", cho tác vụ phân loại chuỗi bằng AutoModelForSequenceClassification của Hugging Face.
  • Khởi tạo cấu hình reward, dùng "output_dir" làm thư mục đầu ra và đặt độ dài tối đa của token là 60.