Mulai sekarangMulai gratis

Menyiapkan reward trainer

Proyek Anda berlanjut dan kini Anda memiliki objek model dan config yang siap untuk mulai melatih reward model.

Himpunan data pelatihan dan evaluasi telah dimuat sebagai train_data dan eval_data. RewardTrainer telah diimpor dari trl.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Instruksi latihan

  • Inisialisasi RewardTrainer() dengan menetapkan model, tokenizer, himpunan data pelatihan, himpunan data evaluasi, dan konfigurasi reward ke atributnya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Edit dan Jalankan Kode