Configurer le formateur de récompense
Votre projet avance : vous disposez maintenant des objets model et config pour démarrer l’entraînement du modèle de récompense.
Les jeux de données d’entraînement et d’évaluation ont été préchargés sous train_data et eval_data. RewardTrainer a été importé depuis trl.
Cet exercice fait partie du cours
<cours>Reinforcement Learning from Human Feedback (RLHF)</cours>Instructions de l’exercice
- Initialisez
RewardTrainer()en lui attribuant le modèle, le tokenizer, le jeu de données d’entraînement, le jeu de données d’évaluation et la configuration de la récompense.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____