IniziaInizia gratis

Configurare il reward trainer

Il tuo progetto prosegue e ora hai gli oggetti model e config pronti per iniziare ad addestrare il reward model.

I dataset di training e valutazione sono stati precaricati come train_data ed eval_data. RewardTrainer è stato importato da trl.

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza il corso

Istruzioni dell'esercizio

  • Inizializza RewardTrainer() assegnando il modello, il tokenizer, il dataset di training, il dataset di valutazione e la configurazione del reward ai suoi attributi.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)

# Initialize the reward trainer
trainer = ____
Modifica ed esegui il codice