MulaiMulai sekarang secara gratis

Menyiapkan reward trainer

Proyek Anda berlanjut dan kini Anda memiliki objek model dan config yang siap untuk mulai melatih reward model.

Himpunan data pelatihan dan evaluasi telah dimuat sebagai train_data dan eval_data. RewardTrainer telah diimpor dari trl.

Latihan ini adalah bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Petunjuk latihan

  • Inisialisasi RewardTrainer() dengan menetapkan model, tokenizer, himpunan data pelatihan, himpunan data evaluasi, dan konfigurasi reward ke atributnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Edit dan Jalankan Kode