Khởi tạo reward

Bạn đang ở giai đoạn cuối cùng để triển khai một mô hình sinh (generative model) dùng cho gợi ý cá nhân hóa của một hiệu sách trực tuyến. Để mô hình phù hợp với các gợi ý được con người ưa thích, bạn cần huấn luyện một reward model bằng dữ liệu sở thích đã thu thập. Bước đầu tiên là khởi tạo mô hình và các tham số cấu hình.

AutoTokenizer và AutoModelForSequenceClassification đã được nạp sẵn từ transformers. RewardConfig đã được nạp sẵn từ trl.