De reward trainer instellen
Je project gaat verder en je hebt nu de objecten model en config klaar om te beginnen met het trainen van het rewardmodel.
De trainings- en evaluatiegegevenssets zijn vooraf geladen als train_data en eval_data. De RewardTrainer is geïmporteerd uit trl.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Oefeninstructies
- Initialiseer de
RewardTrainer()door het model, de tokenizer, de trainingsgegevensset, de evaluatiegegevensset en de beloningsconfiguratie aan de bijbehorende parameters toe te wijzen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
model = AutoModelForSequenceClassification.from_pretrained('openai-gpt')
config = RewardConfig(output_dir='output_dir', max_length=60)
# Initialize the reward trainer
trainer = ____