Configurer le formateur de récompense
Votre projet avance : vous disposez maintenant des objets model et config pour démarrer l’entraînement du modèle de récompense.
Les jeux de données d’entraînement et d’évaluation ont été préchargés sous train_data et eval_data. RewardTrainer a été importé depuis trl.
Cet exercice fait partie du cours
Reinforcement Learning from Human Feedback (RLHF)
Instructions
- Initialisez
RewardTrainer()en lui attribuant le modèle, le tokenizer, le jeu de données d’entraînement, le jeu de données d’évaluation et la configuration de la récompense.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____