Configurare il reward trainer
Il tuo progetto prosegue e ora hai gli oggetti model e config pronti per iniziare ad addestrare il reward model.
I dataset di training e valutazione sono stati precaricati come train_data ed eval_data. RewardTrainer è stato importato da trl.
Questo esercizio fa parte del corso
Reinforcement Learning from Human Feedback (RLHF)
Istruzioni dell'esercizio
- Inizializza
RewardTrainer()assegnando il modello, il tokenizer, il dataset di training, il dataset di valutazione e la configurazione del reward ai suoi attributi.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____