Menyiapkan reward trainer
Proyek Anda berlanjut dan kini Anda memiliki objek model dan config yang siap untuk mulai melatih reward model.
Himpunan data pelatihan dan evaluasi telah dimuat sebagai train_data dan eval_data. RewardTrainer telah diimpor dari trl.
Latihan ini adalah bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Petunjuk latihan
- Inisialisasi
RewardTrainer()dengan menetapkan model, tokenizer, himpunan data pelatihan, himpunan data evaluasi, dan konfigurasi reward ke atributnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____